请问是否有任务结束后保留JOBDIR文件的方法?
来源:9-6 scrapy的暂停与重启
慕粉1946152704
2019-09-25
老师,我想写一个爬虫放到阿里云上, 每日定时增量爬取一遍某网站的明细数据,我在您的课上学到了配置JOBDIR的方式,但是每日爬取任务结束后, requests.queue里的文件就会清空, 导致下次调度该任务时无法去重,请问scrapy有没有可以控制任务结束时不清空JOBDIR文件的变量呢?
写回答
1回答
-
不清空 spider就会一直从这里取 停止不了。所以不应该考虑不清空queue,而是你自己写一个脚本。每天定时将你需要重抓的url生成指纹自己放入到这个队列中就行了
042019-10-08
相似问题