[Bug Report] deepin mcp下载经常失败
Tofloor
poster avatar
fslong
deepin
2025-05-03 11:12
Author

deepin mcp下载用的是requests库,但没有模拟浏览器,很多参数都没设置,导致很多网站一下就检查出这是爬虫,直接就ban了,所以下载不成功:
image.png
针对这个问题有下面几个建议:

  1. requests库里还有很多可配置项,比如ua、headers之类的,添加完善
  2. 直接调用wget、curl、axel之类的下载工具下载
  3. 使用playwright调用无头浏览器下载

方式2可能还是会遇到一些不能下载的,比如动态网页或者连接,但比requests稳,而且可以多线程。
方式3会有安装包过大的问题,占用空间较大,优点是可见即可爬、可以使用成熟产品:

image.png

顺便说一下,这段代码的错误捕获真的太扯了,真的try里面只会有请求失败这一个错误吗?下载目录没有写权限呢?文件夹没创建呢?

Reply Favorite View the author
All Replies
zccrs
deepin
2025-05-06 19:59
#1

快去贡献代码agree

Reply View the author
fslong
deepin
2025-05-07 13:35
#2
zccrs

快去贡献代码agree

貌似没开源,仓库都没找到。

Reply View the author
zed7th
deepin
2025-05-07 15:32
#3

请教大佬是怎么在 Deepin 安装 playwright 的,小弟最近在学习爬虫需要用到 playwright,但是不管是使用 Python 还是 Go,按照官方文档安装 playwright 的时候,都会因为系统不支持而使用 ubuntu20.04-x64,然后就会找不到图片中的包,如果我手动修改 /etc/os-release 为 Debian,脚本在执行的过程中,也会遇到一些库版本不匹配而中断

image.png

Reply View the author
fslong
deepin
2025-05-08 09:28
#4
zed7th

请教大佬是怎么在 Deepin 安装 playwright 的,小弟最近在学习爬虫需要用到 playwright,但是不管是使用 Python 还是 Go,按照官方文档安装 playwright 的时候,都会因为系统不支持而使用 ubuntu20.04-x64,然后就会找不到图片中的包,如果我手动修改 /etc/os-release 为 Debian,脚本在执行的过程中,也会遇到一些库版本不匹配而中断

image.png

用pip或者uv安装

Reply View the author