做搜索引擎前需要大量的数据,如何类似百度全网爬取信息
来源:8-8 scrapy实现ip代理池 - 3
我们不熟
2020-04-03
做搜索引擎前需要大量的数据,如何类似百度全网爬取信息
写回答
2回答
-
个人开发者不现实。 360 搜狗举全公司之力 都做不好搜索引擎 更何况个人, 这里问题很多很难,包括 中文分词 词库 包括全网爬虫 等都不是几个人或者一个小公司能做到的,互联网上95%以上的爬虫都是针对定向抓取的,先不说反爬 就说智能解析 都不可能一个人做好,因为一个互联网上的网站都得上亿,还要包括你的数据存储等都不简单 所以这里如果只是想做一个看起来像的 使用es 就行了,但是你要做成一个百度的那种 你首先要做的就是解析,你不能采用xpath这种精确的接续 你得采用机器学习的解析 而且你还不能做到精确解析,机器学习只能做到title和content这种粗粒度的解析
052020-04-07 -
我们不熟
提问者
2020-04-05
我就是想手机细分类行业
00
相似问题