爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-

29 五月

星期五, 29 五月 2020 12:17 Last Updated on 星期五, 29 五月 2020 12:17 0 Comments

1.运行环境：

Linux/Window 10 + Scrapy 1.7.4

2.问题描述：

借助scrapy框架采集数据时，采集完第一条数据后，卡住不动，6,7分钟之后才开始采集下一条，如下图。
爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-
还有间隔10几分钟的，没截到图，就放了这张图意思意思。若是一直这样超时不报异常，无法触发异常机制再次发起请求，就会导致采集效率太低了。
其实按道理在settings.py中设置：

DOWNLOAD_TIMEOUT = 60

针对单个脚本进行配置：

    custom_settings = { 'DOWNLOAD_TIMEOUT': 60, }

如此设置之后，本该若是请求时间超过60秒，就会报异常，异常机制是会再次发起请求的，但是卡住不动，异常也无法获取。

3.解决方法：

上面的设置都不起作用，没法，又去翻了一遍scrapy文档
爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-
然而

走投无路之下尝试用meta携带download_timeout到相应请求中，结果惊讶的发现，起作用了。超时之后成功触发异常，这…

是的，就是下面这行代码，解决了这个问题：

meta={'download_timeout': 60}

爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间- 就很纳闷，为什么明明设置了全局超时控制，却不起作用，还得另外单独设置。。。

转载请注明转自:https://leejason.blog.csdn.net/article/details/106380324

展开阅读全文

评论
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

郑德帅

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-

1.运行环境：

2.问题描述：

3.解决方法：

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

爬虫框架Scrapy使用IP代理,DOWNLOADTIMEOUT不起作用的解决方法python欢迎来到真的帅的博客空间-

1.运行环境：

2.问题描述：

3.解决方法：

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录