dont_filter的问题

来源：13-3 通过修改scrapy-redis完成增量抓取-2

慕少7338747

2020-04-28

老师您课程中的这个dont_filter设置成False不是代表着request出去的url参与去重吗？？那如果我放进来的是cnblogs的列表页，我过一段时间想在爬取这个列表页，不是爬取不到了吗，因为已经去重了呀。
那还怎么完成增量抓取呢？
图片描述

写回答

1回答

bobby

2020-04-29

dont_filter设置为True代表这个url不能被去重。如果这个地方这个url不希望被去重那就要设置为flase 比如你说的列表页就是一种典型的不能被去重的url

bobby

慕少7338747

你理解错了 dont_filter你通过字面意思就能看得出来这个是设置是否不去重，设置为true就是强制不去重，如果不设置默认就是false代表会去重

2020-05-02

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 1

回答 1

回答 3

回答 3

回答 1