关于去重的两点疑惑
来源:10-9 集成bloomfilter到scrapy-redis中
RiverMa
2017-07-11
1、如果爬虫不重启,scrapy自带的去重和redis都可以很方便的去重。但如果爬虫爬完关闭后,重新启动,原来的url信息都没有了,还会从头再来一遍。怎么样发现新更新的链接?
2、有些页面url没有发生变化,但内容变了,比如论坛里回复的最后一页,上次爬取后又有新的回复,如果按url去重是不是会漏掉数据?
写回答
1回答
-
scrapy的暂停和重启我在scrapy进阶中讲过, 如果按照那种方式启动和停止都不用担心中间的数据丢失,因为这些数据都会保存到文件中, 下一次重启会从这些文件加载, scrapy-redis的所有这些中间状态都是保存在redis中的更不会丢失, 这些我在课程中都详细的讲过的
对某一个url在yield request的时候, 设置一个参数 dont_filter=True后及时这个url已经存在在去重队列中也不会被过滤掉的, 你是不是课程中跳着看的, 这些内容我都讲解过的
022017-07-13
相似问题