爬取网站禁用aws ec2的ip

来源:16-1 scrapyd部署scrapy项目

慕雪0267781

2017-11-30

老师,同学好, 向大家请教一个问题。 我写了一个爬虫,爬取carfax的数据,在本地测试,爬了30多万条数据,爬虫本身的代码应该没有问题。 我将爬虫部署到aws 的ec2上后就用不了了,返回403。 发现问题是carfax把所有从ec2出来的IP都禁了。 请问出了用代理池外,还有别的解决办法吗? 

写回答

3回答

bobby

2017-12-01

还有tor 洋葱网络 但是那个需要你有vpn才行 课程中提到过 你可以百度一下tor

0
1
慕雪0267781
谢谢老师。 我后来用高匿代理IP试了一下,还是不行,还是返回403。这个让我很困惑,按理说,我用了代理以后,请求carfax.com的应该是代理服务器的IP才对啊。
2017-12-03
共1条回复

慕雪0267781

提问者

2017-11-30

aaa

0
0

慕雪0267781

提问者

2017-11-30

我后面又试了一下,代理也不行,真是太困惑了:

1,在ec2上,直接用requests库,能够用get请求拿到其他网站的数据。 这说明ec2的配置没有问题。

2,在requestes库的get请求中加上高匿代理后,访问carfax仍然是403. 这让我非常困惑。

3,应该不是cookie的问题,因为carfax不需要登录。 而且本地爬的时候,cookie是禁用了的。 

同样的代码,我在本地也试了,本地能够正常的拿到数据。 

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程