爬取重复信息

来源:15-2 es完成搜索建议-搜索建议字段保存 - 2

weixin_慕函数2503942

2019-03-14

老师你好,我爬虫某一个全网网站信息,发现总是爬取了很多重复信息,这怎么弄?

写回答

1回答

bobby

2019-03-16

首先url去重只是一种去除重复的策略,但是很多时候可以根据内容的id去重 你是否对url去重了还是有重复的内容?

0
3
weixin_慕函数2503942
非常感谢!
2019-03-19
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程