Redis 能否标记内容是否已经采集
来源:10-9 集成bloomfilter到scrapy-redis中
笑看风云号
2017-07-09
Redis 除了能用来管理URL和去重,能否标记URL对应的内容页是否已经采集的这样的情况呢?或者用啥方式来操作内容是否已经采集的情况呢?
写回答
1回答
-
bobby
2017-07-10
亲 为什要通过内容去重呢, 一般html内容非常大 如果通过这种内容去重 肯定没有那么大内存的机器来完成啊, 而且你如果已经第二次爬取到内容了 为什么要去去重呢 通过内容去重说明你已经爬取了内容了, 尽然已经爬取内容了为什么还要去重呢,完全没有去重的效果啊, 即使需要去重也是通过数据库去重啊, 爬虫都是通过url去重的
022017-07-11
相似问题