rule中follow参数为true。

首页课程实战体系课手记专栏慕课教程

rule中follow参数为true。

来源：7-4 Rule和LinkExtractor使用

starkpan

2018-12-31

1、对这个爬取follow=true，不太清楚里面的规则。以拉勾网一个具体招聘为例，每一个招聘页面，正文为一个具体工作，右边会有几个推荐工作链接。这样抓取的话，会不会出现爬虫永远都抓取不完？
因为右侧的推荐永远都是有的。
follow=true的具体抓取策略是什么？
会把整个页面的url全部提取，然后根据rule进行过滤，还是特定只抓取页面特定的一部分。
2、还有就是这个url抓取，爬虫会自动去重么，还是自己后期再进行去重处理。

我这在抓取猎聘网职位，但是感觉跑不完了····

写回答

2回答

bobby

bobby

2019-01-01

已采纳

crawler是为了做全站爬取的。如果有特别的抓取需求比如像你这样的不抓取右侧的推荐工作的话不适合用crawler而是直接继承spider就行了

0

4

bobby

回复

starkpan

好的，加油

2019-01-06

共4条回复

starkpan

starkpan

提问者

2018-12-31

查了查，crapy默认是有去重的在 classRequest中 __init__中有一个参数为dont_filter=False,也就是默认是去重的。

0

3

bobby

回复

starkpan

这个不一定的，比如这个页面数据更新了这个时候你需要重新抓取的，所以具体要看抓取的网站的数据是否会更新以及你是否需要去更新这些数据

2019-01-03

共3条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5825 学习 · 6292 问题

相似问题

请问CrawlSpider中可以使用request的meta来传递参数么

回答 1

Rule类中的follow参数问题

回答 1

老师，用scrapy-redis怎么实现深度优先啊

回答 2

老师，教程里面的爬取拉勾网的代码不能使用了，CrawlSpider怎么实现拉钩网的模拟登陆呢？

回答 2

follow后的链接，怎么爬取数据

回答 1

打开慕课网App查看更多内容