dont_filter的问题
来源:13-3 通过修改scrapy-redis完成增量抓取-2
慕少7338747
2020-04-28
老师 您课程中的这个dont_filter设置成False不是代表着request出去的url参与去重吗?? 那如果我放进来的是cnblogs的列表页,我过一段时间想在爬取这个列表页,不是爬取不到了吗,因为已经去重了呀。
那还怎么完成增量抓取呢?
写回答
1回答
-
bobby
2020-04-29
dont_filter设置为True代表这个url不能被去重。 如果这个地方这个url不希望被去重 那就要设置为flase 比如你说的列表页就是一种典型的不能被去重的url
022020-05-02
相似问题