爬取网站禁用aws ec2的ip

来源：16-1 scrapyd部署scrapy项目

慕雪0267781

2017-11-30

老师，同学好，向大家请教一个问题。我写了一个爬虫，爬取carfax的数据，在本地测试，爬了30多万条数据，爬虫本身的代码应该没有问题。我将爬虫部署到aws 的ec2上后就用不了了，返回403。发现问题是carfax把所有从ec2出来的IP都禁了。请问出了用代理池外，还有别的解决办法吗？

写回答

3回答

bobby

2017-12-01

还有tor 洋葱网络但是那个需要你有vpn才行课程中提到过你可以百度一下tor

慕雪0267781

谢谢老师。我后来用高匿代理IP试了一下，还是不行，还是返回403。这个让我很困惑，按理说，我用了代理以后，请求carfax.com的应该是代理服务器的IP才对啊。

2017-12-03

共1条回复

慕雪0267781

提问者

2017-11-30

aaa

慕雪0267781

提问者

2017-11-30

我后面又试了一下，代理也不行，真是太困惑了：

1，在ec2上，直接用requests库，能够用get请求拿到其他网站的数据。这说明ec2的配置没有问题。

2，在requestes库的get请求中加上高匿代理后，访问carfax仍然是403. 这让我非常困惑。

3，应该不是cookie的问题，因为carfax不需要登录。而且本地爬的时候，cookie是禁用了的。

同样的代码，我在本地也试了，本地能够正常的拿到数据。

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5828 学习 · 6293 问题

相似问题

回答 2

回答 1

回答 2

回答 1

回答 1