请问是否有任务结束后保留JOBDIR文件的方法?

来源：9-6 scrapy的暂停与重启

慕粉1946152704

2019-09-25

老师,我想写一个爬虫放到阿里云上, 每日定时增量爬取一遍某网站的明细数据,我在您的课上学到了配置JOBDIR的方式,但是每日爬取任务结束后, requests.queue里的文件就会清空, 导致下次调度该任务时无法去重,请问scrapy有没有可以控制任务结束时不清空JOBDIR文件的变量呢?

写回答

1回答

bobby

2019-09-26

已采纳

不清空 spider就会一直从这里取停止不了。所以不应该考虑不清空queue，而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了

慕粉1946152704

非常感谢！

2019-10-08

共4条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5827 学习 · 6293 问题

相似问题

回答 1

回答 1

回答 5

回答 1

回答 2