类似百度谷歌爬虫的原理是什么呢?
来源:17-1 课程总结
ak918xp
2020-05-11
老师您好,我在总结课程的时候想到了这个问题。我想问问我们这个爬虫跟百度谷歌那种全网爬虫的区别在于哪里呢?我就想到了全网爬虫通过机器学习粗糙的解析字段,我们这个课程是通过选择器按照每个不同的网站人工精确解析。请问哪些什么区别?谢谢老师
写回答
1回答
-
bobby
2020-05-12
首先百度的爬虫的需要的是全网爬取,解析不需要太精确。因为网站这么多百度不可能做到全部精确解析,也只能解析出大概的信息,对于百度这种爬虫来说,也不会费精力去解决动态爬虫,因为你开发了一个网站是动态网站,百度就抓取不到,你的排名就上不去,这是你的损失不是百度的损失,所以对于百度的爬虫来说更重要的是数据量大,并发大,解析上采用机器学习算法获取,但是我们平时开发的爬虫更重要的是精确解析,并发量和数据量都和百度的爬虫没得比,更重要的是我们要模拟登录,要去反爬,要去解决动态网站的问题,这些百度的爬虫并不强调
00
相似问题