爬取重复信息
来源:15-2 es完成搜索建议-搜索建议字段保存 - 2
weixin_慕函数2503942
2019-03-14
老师你好,我爬虫某一个全网网站信息,发现总是爬取了很多重复信息,这怎么弄?
写回答
1回答
-
首先url去重只是一种去除重复的策略,但是很多时候可以根据内容的id去重 你是否对url去重了还是有重复的内容?
032019-03-19
相似问题
爬取重复信息
来源:15-2 es完成搜索建议-搜索建议字段保存 - 2
weixin_慕函数2503942
2019-03-14
老师你好,我爬虫某一个全网网站信息,发现总是爬取了很多重复信息,这怎么弄?
1回答
首先url去重只是一种去除重复的策略,但是很多时候可以根据内容的id去重 你是否对url去重了还是有重复的内容?
相似问题