Redis 能否标记内容是否已经采集

来源:10-9 集成bloomfilter到scrapy-redis中

笑看风云号

2017-07-09

Redis 除了能用来管理URL和去重,能否标记URL对应的内容页是否已经采集的这样的情况呢?或者用啥方式来操作内容是否已经采集的情况呢?

写回答

1回答

bobby

2017-07-10

亲 为什要通过内容去重呢, 一般html内容非常大 如果通过这种内容去重 肯定没有那么大内存的机器来完成啊, 而且你如果已经第二次爬取到内容了 为什么要去去重呢 通过内容去重说明你已经爬取了内容了, 尽然已经爬取内容了为什么还要去重呢,完全没有去重的效果啊, 即使需要去重也是通过数据库去重啊, 爬虫都是通过url去重的

0
2
bobby
回复
笑看风云号
后面课程中我也会讲到scrapy的暂定和重启 会讲到这个问题的, 而且后面的scrapy-redis会解决这个问题 因为所有的request队列都是放到redis中的, 不会有你说的问题
2017-07-11
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程