如何自定义失败

来源:8-8 scrapy实现ip代理池 - 3

wo110110

2017-04-18

老师您好    看了你的视频准备改用scrapy来抓取职位类的网站信息,但是有的职位网站我发现他不会封你的ip,但是返回的页面只有head,剩下的都是空白   如果依据code状态码判断  那都算是成功了。我应该在哪个文件设置规则自己判断是否失败,来更换ip。这样scrapy针对不对网站都可以设置相应的失败规则  希望老师可以解答下   谢谢。

写回答

1回答

bobby

2017-04-18

这个问题我在第八章中关于scrapy的进阶开发中专门提到过这个问题, 你看过之后就会明白, 通过自定义middleware来完成, 我专门针对拉勾的失败页面做过说明的

0
1
wo110110
哦哦 没仔细看 抱歉 谢谢老师
2017-04-18
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程