dont_filter的问题

来源:13-3 通过修改scrapy-redis完成增量抓取-2

慕少7338747

2020-04-28

老师 您课程中的这个dont_filter设置成False不是代表着request出去的url参与去重吗?? 那如果我放进来的是cnblogs的列表页,我过一段时间想在爬取这个列表页,不是爬取不到了吗,因为已经去重了呀。
那还怎么完成增量抓取呢?
图片描述

写回答

1回答

bobby

2020-04-29

dont_filter设置为True代表这个url不能被去重。 如果这个地方这个url不希望被去重  那就要设置为flase 比如你说的列表页就是一种典型的不能被去重的url

0
2
bobby
回复
慕少7338747
你理解错了 dont_filter你通过字面意思就能看得出来这个是设置是否不去重,设置为true就是强制不去重,如果不设置默认就是false代表会去重
2020-05-02
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程