做搜索引擎前需要大量的数据,如何类似百度全网爬取信息

来源:8-8 scrapy实现ip代理池 - 3

我们不熟

2020-04-03

做搜索引擎前需要大量的数据,如何类似百度全网爬取信息

写回答

2回答

bobby

2020-04-04

个人开发者不现实。 360 搜狗举全公司之力 都做不好搜索引擎 更何况个人, 这里问题很多很难,包括 中文分词 词库 包括全网爬虫 等都不是几个人或者一个小公司能做到的,互联网上95%以上的爬虫都是针对定向抓取的,先不说反爬 就说智能解析 都不可能一个人做好,因为一个互联网上的网站都得上亿,还要包括你的数据存储等都不简单 所以这里如果只是想做一个看起来像的 使用es 就行了,但是你要做成一个百度的那种 你首先要做的就是解析,你不能采用xpath这种精确的接续 你得采用机器学习的解析 而且你还不能做到精确解析,机器学习只能做到title和content这种粗粒度的解析

0
5
我们不熟
非常感谢!
2020-04-07
共5条回复

我们不熟

提问者

2020-04-05

我就是想手机细分类行业

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程