CrawlSpider要怎么增量爬取呢?
来源:10-9 集成bloomfilter到scrapy-redis中
星辉银河
2018-01-22
像我爬取伯乐在线的所有文章,爬完了一遍之后第二天又把http://blog.jobbole.com/all-posts/放到待爬队列中,并设置不过滤,但这样一来爬虫只会爬这一页的新文章,CrawlSpider根据规则自动提取的其他页面的链接像http://blog.jobbole.com/all-posts/page/2/还是会被过滤掉。
写回答
1回答
-
bobby
2018-01-24
这种需求的情况下不建议使用Crawlspider 或者你重新修改一下Crawlspider的源码
00
相似问题