CrawlSpider要怎么增量爬取呢？

首页课程实战体系课手记专栏慕课教程

CrawlSpider要怎么增量爬取呢？

来源：10-9 集成bloomfilter到scrapy-redis中

星辉银河

2018-01-22

像我爬取伯乐在线的所有文章，爬完了一遍之后第二天又把http://blog.jobbole.com/all-posts/放到待爬队列中，并设置不过滤，但这样一来爬虫只会爬这一页的新文章，CrawlSpider根据规则自动提取的其他页面的链接像http://blog.jobbole.com/all-posts/page/2/还是会被过滤掉。

写回答

1回答

bobby

bobby

2018-01-24

这种需求的情况下不建议使用Crawlspider 或者你重新修改一下Crawlspider的源码

0

0

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

scrapy-redis怎么做增量爬取

回答 1

爬取拉钩要登录

回答 2

crawlspider 分布式是先爬网页再解析网页吗

回答 2

老师，通过CrawlSpider爬取一个域下的所有站点，怎么实现增量爬虫

回答 1

scrapy.Spider 和 CrawlSpider 到底要用哪个？

回答 1

打开慕课网App查看更多内容