爬取登录的网站是否有必要构建UA池与IP代理池

首页课程实战体系课手记专栏慕课教程

爬取登录的网站是否有必要构建UA池与IP代理池

来源：8-8 scrapy实现ip代理池 - 3

慕丝146315

2019-10-20

老师，您好。
我的疑问是一个登录的用户不可能短时间内频繁的切换User-Agent与IP，那么服务端是否可以通过这个机制来制定反爬策略？比如监测账户短时间内IP和User-Agent的变化次数，如果超过某个阈值，就把这个账户的访问识别为一个爬虫程序。
这样子反而导致我们的UA代理和IP代理成为服务端识别爬虫的手段，我们如果只设置下载延迟参数，控制爬取的速度，这样反反爬的效果是否会更好？

写回答

1回答

bobby

bobby

2019-10-22

已采纳

其实你如果作为一个开发者和网站你已经想到了一些反爬的措施，就是通过你这种方法来做，这样做看似可行，但是从另一个角度来讲这样做有不小的风险：

第一点：对于一个局域网来说（校园网和大量的网吧），这些局域网中的每个用户对外的ip都是同一个ip，这样你如何将用户和ip绑定起来？同一个用户绑定到同一个ip

第二点：很多局域网的ip都是动态分配的，比如一个小区的对外ip可能2个小时就变动一次，那么这样做那么因为ip变动了就说我是爬虫，这样不合理吧

通过上面你可以看到，很多看似很简单的反爬策略，为什么很多大公司居然不用，如果对http协议和计算机网络协议理解了的话就会发现背后的原因了，这些也是分析爬虫可行性和反爬可行性的理论依据

0

3

慕丝146315

回复

bobby

好的，谢谢老师

2019-10-23

共3条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

爬取拉钩要登录

回答 2

解决反爬问题

回答 2

只爬取，不处理

回答 3

获取了登录后的cookie无法获取具体信息

回答 1

一个 cookie池一般需要多少条cookie信息呢

回答 1

打开慕课网App查看更多内容