rules如何解决request的地址和allow_domain里面的冲突

来源:2-4 虚拟环境的安装和配置

归根结底不优秀

2019-04-18

http://img.mukewang.com/szimg/5cb8283f000151c118080773.jpg

只能执行parse_job之前的部分,后面的执行不了

这种情况看网上的解决办法是 request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。
yield Request(url, callback=self.parse_item, dont_filter=True),可是我用的是crawlSpider,而且在yiled scrapy.Request时dont_filter确实为Ture,我就在想是不是rules也会有这个过滤选项,该如何解决

下面是我的设置

然而即使我把allow_domains注释掉了运行还是这个错误,觉得网上的解释有问题http://img.mukewang.com/szimg/5cb826ff00013f7912260305.jpg

写回答

1回答

bobby

2019-04-20

你这里最好使用spider,不使用crawlspider

0
3
归根结底不优秀
非常感谢!
2019-04-25
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程