USER_AGENT随机切换的问题

来源:8-4 通过downloadmiddleware随机更换user-agent-1

慕尼黑530398

2017-12-03

老师好,通过middleware可以实现随机user_agent的切换。但是如果IP地址是不变化的,服务器是不是可以根据同一个IP,但是经常用不同的user_agent进行请求来判定是爬虫。这样说随机切换请求头是不是意义不大呢?

写回答

1回答

bobby

2017-12-04

对, 有一些同学会问为什我设置了user-agent还是会被识别为爬虫, 课程中讲到的user-agent以及ip切换实际上都是一些初级的手段或者说没有一种方法是万能的, 因为如果做过后端就会明白, 识别爬虫我可以通过任何爬虫可能存在的行为来判断, 比如user-agent是最简单的也是最初级的反爬虫方案, 任何网站只要有心想反爬虫或者说有人力来做反爬虫都不可能只通过user-agent来判定爬虫, ip是最有效但是也是杀伤力最大的反爬虫方式, 所以很多网站对ip的限制都是禁止一段时间 但是不会把这个当做唯一的反爬虫方式, 还可以通过cookie, 通过账号等等方式来试验, 比如拉勾网即使通过ip限制爬虫也只是让你去登录而不会直接说你就是爬虫, 通过让你登录进一步确定你是不是爬虫, 所以你要做爬虫一定要有针对性的去分析对方采用什么手段樊爬虫的, 这个只有自己去尝试了, 课程中只是给了理论上的方案, 至于如何去组合需要自己去完成的

0
1
慕尼黑530398
非常感谢!
2017-12-04
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程