老师,通过CrawlSpider爬取一个域下的所有站点,怎么实现增量爬虫

来源:14-1 elasticsearch介绍

loonghoo

2019-08-14

写回答

1回答

bobby

2019-08-16

增量抓取可以使用scrapy-redis定时向redis的队列中放入待抓取的requests 并把队列设置为优先级队列就可以控制哪些request会优先抓取了

0
2
bobby
回复
evilchaos
你把Request中设置一个参数dont_filter设置为True,但是哪些需要重新抓取这个需要你自己去设置了
2019-08-18
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程