使用Crawlera后,response.body为空,取不到信息

来源:8-8 scrapy实现ip代理池 - 3

BigCarrey

2018-04-15

老师您好。我按照课程内容完成了User-Agent设置和Crawlera的IP设置,去爬取大众点评网的信息,现在遇到一个问题。在我启用Crawlera之后,response.body基本上都是空的,提不出任何信息。反倒是我没启用Crawlera的话,大部分情况下response.body是正常的,可以取到信息,但是有一定几率会碰到403。请问这是什么原因呢?该如何解决?

http://img.mukewang.com/szimg/5ad325a60001a3bb15380436.jpg

http://img.mukewang.com/szimg/5ad325a70001409423440660.jpg

http://img.mukewang.com/szimg/5ad325a70001193722480710.jpg

PS:我已经尝试了设置DOWNLOAD_TIMEOUT为3000,以及设置DOWNLOAD_DELAY为1,均未能解决问题。

写回答

1回答

bobby

2018-04-16

应该是代理ip被识别为黑名单ip了 你换个其他ip代理试试呢

0
3
bobby
回复
BigCarrey
你给我发个qq消息 我看看呢 442421039
2018-04-18
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程