session.get()会话能否加上代理ip和随机ua

来源：9-6 scrapy的暂停与重启

慕先生0421411

2017-07-14

请问老师：session.get()能否加上代理ip和随机ua请求，session里面是带上selenium的cookies，速度快很多。但是抓不到100条数据就被识别到，只要用selenium启动chrome就被识别。我用本地浏览器访问是没问题。所以我就怀疑阿里巴巴是根据selenium启动chrome的ua和ip地址来封我的。，这种情况如何破解？

写回答

1回答

bobby

2017-07-17

import requests
proxies = {'http': ' 
s = requests.session()
s.proxies.update(proxies)
s.get("http://www.example.com")

可以的你看看这个代码，你可以先试试这个requests 如果还是不行可以试试用其他的driver 比如chrome或者phantomjs 以及可以参考一下其他测试的语言直接操作本地浏览器而不是driver，我之前接触过autoit 还不错你可以考虑一下

bobby

慕先生0421411

爬虫的反爬策略非常多不一定只有通过cookie 和ip或者通过ua来判断你是否爬虫，还有很多机器学习的方法，比如通过你的请求是否只请求html 不请求js css等，所以你需要不停的去尝试，阿里巴巴这种网站的反爬肯定是非常高的，你需要找到那个临界值比如请求频率等，还有你可以尝试一下收费的爬虫部署看看那些收费服务能否解决这种问题，我这里最近也发现了一款开源的 https://github.com/easychen/catgate 用于真实浏览器的爬取你可以看看，这个项目我还没有来得及看你可以先试试

2017-07-18

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

查看课程

相似问题

老师，帮我看一下这个错误怎么解决呢？设置代理ip和随机UA，然后怎么都不能访问了，调试和运行时都能正常输出随机代理ip和UA

回答 2

老师,请问拉钩这里会出现这么多的重定向了?

回答 1

爬取登录的网站是否有必要构建UA池与IP代理池

回答 1

ip代理问题

回答 2

selenium能不能带上随机ip，随机ua，随机cookies访问网站

回答 1

打开慕课网App查看更多内容