爬取网站禁用aws ec2的ip
来源:16-1 scrapyd部署scrapy项目
慕雪0267781
2017-11-30
老师,同学好, 向大家请教一个问题。 我写了一个爬虫,爬取carfax的数据,在本地测试,爬了30多万条数据,爬虫本身的代码应该没有问题。 我将爬虫部署到aws 的ec2上后就用不了了,返回403。 发现问题是carfax把所有从ec2出来的IP都禁了。 请问出了用代理池外,还有别的解决办法吗?
写回答
3回答
-
bobby
2017-12-01
还有tor 洋葱网络 但是那个需要你有vpn才行 课程中提到过 你可以百度一下tor
012017-12-03 -
慕雪0267781
提问者
2017-11-30
aaa
00 -
慕雪0267781
提问者
2017-11-30
我后面又试了一下,代理也不行,真是太困惑了:
1,在ec2上,直接用requests库,能够用get请求拿到其他网站的数据。 这说明ec2的配置没有问题。
2,在requestes库的get请求中加上高匿代理后,访问carfax仍然是403. 这让我非常困惑。
3,应该不是cookie的问题,因为carfax不需要登录。 而且本地爬的时候,cookie是禁用了的。
同样的代码,我在本地也试了,本地能够正常的拿到数据。
00
相似问题