如何做好网络爬虫工程师

来源:1-1 从零开始 系统入门python爬虫工程师-课程导学

你哭着对我说

2020-02-21

老师,我们学习网络爬虫工程师的应该避免爬什么样的网站,或者是要遵循那个协议,还有不让网站服务器崩溃,还不能爬什么网站啊?或者说不能出售数据,或者不能那数据干什么啊?老师,还有怎么学好网络爬虫工程师啊?(精益求精)老师

写回答

2回答

bobby

2020-02-22

你这是怕法律风险吗? 爬虫最重要的是那个抓取频率,很多人认为只要我写了爬虫 就不用管频率了, 这种没有做限速的爬虫就是恶意爬虫, 也不考虑对方服务器有没有压力,所以一定要有合理的频率, 其实如果担心法律风险, 你其实不用太过担心,很多大公司之间都是在互相抓取的,也没有见过哪个公司告另一个公司,只要你不是恶意的攻击 数据不要给人家拿出去卖了 一般都没有什么问题

1
4
bobby
回复
你哭着对我说
如果遵守robots协议你就完全不用爬, 但是很多网站的robots协议的重要信息都不开放 这样就会导致你爬不到有用的数据,所以可以自己爬取下来做数据分析 不要放到你的网上去拉流量之类的就行了,也就是私下用别人也没法告你
2020-02-24
共4条回复

你哭着对我说

提问者

2020-02-22

谢谢老师
0
0

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2377 学习 · 1158 问题

查看课程