CrawlSpider要怎么增量爬取呢?

来源:10-9 集成bloomfilter到scrapy-redis中

星辉银河

2018-01-22

像我爬取伯乐在线的所有文章,爬完了一遍之后第二天又把http://blog.jobbole.com/all-posts/放到待爬队列中,并设置不过滤,但这样一来爬虫只会爬这一页的新文章,CrawlSpider根据规则自动提取的其他页面的链接像http://blog.jobbole.com/all-posts/page/2/还是会被过滤掉。

写回答

1回答

bobby

2018-01-24

这种需求的情况下不建议使用Crawlspider 或者你重新修改一下Crawlspider的源码

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程