使用scrapy-redis分布式爬虫如何暂停,重启

来源:9-6 scrapy的暂停与重启

一次觅

2019-07-19

使用scrapy-redis分布式爬虫,是否一样能使用这种方式:scrapy crawl spider -s JOBDIR=job_info/001 进行暂停和继续呢 ,我发现info下并没有任何数据,而且重新开始后 还是需要lpush start_urls 进去啊,老师,重新开始后的数据是重复的

写回答

1回答

bobby

2019-07-21

scrapy-redis使用这个方法暂停没有效果 也不用暂停,因为对你来说你只需要自己修改一下源码比如源码中写一个逻辑从redis中读取一个值,这个值表示是否停止,如果是你就一直sleep,然后隔一段时间从redis中查看是否已经可以继续了,可以继续你就把sleep去掉就行了。因为scrapy-redis发现redis中没有数据可读就会一直组塞住

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程