USER_AGENT随机切换的问题
来源:8-4 通过downloadmiddleware随机更换user-agent-1
慕尼黑530398
2017-12-03
老师好,通过middleware可以实现随机user_agent的切换。但是如果IP地址是不变化的,服务器是不是可以根据同一个IP,但是经常用不同的user_agent进行请求来判定是爬虫。这样说随机切换请求头是不是意义不大呢?
写回答
1回答
-
对, 有一些同学会问为什我设置了user-agent还是会被识别为爬虫, 课程中讲到的user-agent以及ip切换实际上都是一些初级的手段或者说没有一种方法是万能的, 因为如果做过后端就会明白, 识别爬虫我可以通过任何爬虫可能存在的行为来判断, 比如user-agent是最简单的也是最初级的反爬虫方案, 任何网站只要有心想反爬虫或者说有人力来做反爬虫都不可能只通过user-agent来判定爬虫, ip是最有效但是也是杀伤力最大的反爬虫方式, 所以很多网站对ip的限制都是禁止一段时间 但是不会把这个当做唯一的反爬虫方式, 还可以通过cookie, 通过账号等等方式来试验, 比如拉勾网即使通过ip限制爬虫也只是让你去登录而不会直接说你就是爬虫, 通过让你登录进一步确定你是不是爬虫, 所以你要做爬虫一定要有针对性的去分析对方采用什么手段樊爬虫的, 这个只有自己去尝试了, 课程中只是给了理论上的方案, 至于如何去组合需要自己去完成的
012017-12-04
相似问题