rule中follow参数为true。

来源:7-4 Rule和LinkExtractor使用

starkpan

2018-12-31

1、对这个爬取follow=true,不太清楚里面的规则。以拉勾网一个具体招聘为例,每一个招聘页面,正文为一个具体工作,右边会有几个推荐工作链接。这样抓取的话,会不会出现爬虫永远都抓取不完?
因为右侧的推荐永远都是有的。
follow=true的具体抓取策略是什么?
会把整个页面的url全部提取,然后根据rule进行过滤,还是特定只抓取页面特定的一部分。
2、还有就是这个url抓取,爬虫会自动去重么,还是自己后期再进行去重处理。

我这在抓取猎聘网职位,但是感觉跑不完了····

写回答

2回答

bobby

2019-01-01

crawler是为了做全站爬取的。如果有特别的抓取需求 比如像你这样的不抓取右侧的推荐工作的话 不适合用crawler而是直接继承spider就行了

0
4
bobby
回复
starkpan
好的,加油
2019-01-06
共4条回复

starkpan

提问者

2018-12-31

查了查,crapy默认是有去重的 在 classRequest中 __init__中有一个参数为dont_filter=False,也就是默认是去重的。

0
3
bobby
回复
starkpan
这个不一定的, 比如这个页面数据更新了 这个时候你需要重新抓取的, 所以具体要看抓取的网站的数据是否会更新以及你是否需要去更新这些数据
2019-01-03
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程