做搜索引擎前需要大量的数据，如何类似百度全网爬取信息

来源：8-8 scrapy实现ip代理池 - 3

我们不熟

2020-04-03

写回答

2回答

bobby

2020-04-04

已采纳

个人开发者不现实。 360 搜狗举全公司之力都做不好搜索引擎更何况个人，这里问题很多很难，包括中文分词词库包括全网爬虫等都不是几个人或者一个小公司能做到的，互联网上95%以上的爬虫都是针对定向抓取的，先不说反爬就说智能解析都不可能一个人做好，因为一个互联网上的网站都得上亿，还要包括你的数据存储等都不简单所以这里如果只是想做一个看起来像的使用es 就行了，但是你要做成一个百度的那种你首先要做的就是解析，你不能采用xpath这种精确的接续你得采用机器学习的解析而且你还不能做到精确解析，机器学习只能做到title和content这种粗粒度的解析

我们不熟

非常感谢！

2020-04-07

共5条回复