请问是否有任务结束后保留JOBDIR文件的方法?

来源:9-6 scrapy的暂停与重启

慕粉1946152704

2019-09-25

老师,我想写一个爬虫放到阿里云上, 每日定时增量爬取一遍某网站的明细数据,我在您的课上学到了配置JOBDIR的方式,但是每日爬取任务结束后, requests.queue里的文件就会清空, 导致下次调度该任务时无法去重,请问scrapy有没有可以控制任务结束时不清空JOBDIR文件的变量呢?

写回答

1回答

bobby

2019-09-26

不清空 spider就会一直从这里取 停止不了。所以不应该考虑不清空queue,而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了

0
4
慕粉1946152704
非常感谢!
2019-10-08
共4条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程