爬取登录的网站是否有必要构建UA池与IP代理池

来源:8-8 scrapy实现ip代理池 - 3

慕丝146315

2019-10-20

老师,您好。
我的疑问是一个登录的用户不可能短时间内频繁的切换User-Agent与IP,那么服务端是否可以通过这个机制来制定反爬策略?比如监测账户短时间内IP和User-Agent的变化次数,如果超过某个阈值,就把这个账户的访问识别为一个爬虫程序。
这样子反而导致我们的UA代理和IP代理成为服务端识别爬虫的手段,我们如果只设置下载延迟参数,控制爬取的速度,这样反反爬的效果是否会更好?

写回答

1回答

bobby

2019-10-22

其实你如果作为一个开发者和网站你已经想到了一些反爬的措施,就是通过你这种方法来做,这样做看似可行,但是从另一个角度来讲这样做有不小的风险:

第一点:对于一个局域网来说(校园网和大量的网吧),这些局域网中的每个用户对外的ip都是同一个ip,这样你如何将用户和ip绑定起来?同一个用户绑定到同一个ip 

 第二点:很多局域网的ip都是动态分配的,比如一个小区的对外ip可能2个小时就变动一次,那么这样做那么因为ip变动了就说我是爬虫,这样不合理吧


通过上面你可以看到,很多看似很简单的反爬策略,为什么很多大公司居然不用,如果对http协议和计算机网络协议理解了的话就会发现背后的原因了,这些也是分析爬虫可行性和反爬可行性的理论依据

0
3
慕丝146315
回复
bobby
好的,谢谢老师
2019-10-23
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程