Rule类中的follow参数问题

来源：7-4 Rule和LinkExtractor使用

Liangruuu

2018-11-26

Rule(LinkExtractor(allow=('gongsi/\d+.html',)), follow=True)

老师，这个follow的官网解释为：

follow 是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果 callback 为None， follow 默认设置为 True ，否则默认为 False 。

但是'跟进'这个词到底是什么意思？

是不是假如说有个网址为http://example1.com,这个页面里有3个子页面

follow参数为true时，crawlSpider就会爬取这三个子页面，如果是的话，crawlspider是如何定位到这三个链接的？

写回答

1回答

bobby

2018-11-26

已采纳

是的， crawlspider在parse方法中会根据你这里的设置决定是否去解析出新的url，具体的解析规则是提取出所有的有href的a标签

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 2

回答 1

回答 1

回答 2

回答 2