使用scrapy-redis分布式爬虫如何暂停，重启

来源：9-6 scrapy的暂停与重启

一次觅

2019-07-19

使用scrapy-redis分布式爬虫，是否一样能使用这种方式：scrapy crawl spider -s JOBDIR=job_info/001 进行暂停和继续呢，我发现info下并没有任何数据，而且重新开始后还是需要lpush start_urls 进去啊，老师，重新开始后的数据是重复的

写回答

1回答

bobby

2019-07-21

scrapy-redis使用这个方法暂停没有效果也不用暂停，因为对你来说你只需要自己修改一下源码比如源码中写一个逻辑从redis中读取一个值，这个值表示是否停止，如果是你就一直sleep，然后隔一段时间从redis中查看是否已经可以继续了，可以继续你就把sleep去掉就行了。因为scrapy-redis发现redis中没有数据可读就会一直组塞住

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5820 学习 · 6291 问题

查看课程

相似问题

scrapyd部署scrapy后无法关闭爬虫

回答 1

请问源代码有实现scrapy-redis对招聘网站进行分布式爬虫吗

回答 1

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

回答 1

SCRAPY-REDIS做了分布式爬虫爬虫的调度问题

回答 1

请教老师一个问题

回答 1

打开慕课网App查看更多内容