老师,请教scrapy redis 如何进行部分rule 增量抓取

来源：8-1 爬虫和反爬的对抗过程以及策略

慕莱坞6627921

2019-07-01

老师您好, 又来麻烦您了. 稍微学看下跟了下源码头大看不懂.

start_url 是内容页的第一页, 有两个ruls规则一个是抓取列表一个是抓取详情页.

其中使用的老师讲的bloomfilter 进行过滤, 因为数据存在更新就想列表不进入过滤, 但是单位时间不重复头疼啊啊

跟了下源码 scrapy_redis/scheduler enqueue_request方法中有个request.dont_filter 开关,方法中参数的request 不知道怎么跟在哪里调用进来的, 晓得在parse 中的_parse_response 可以设置 dont_filter , 不过不晓得怎么进行下去

不过期间可能出现一个问题, 如果执行列表存在重复就是循环了, 老师能不能本轮内单位有效, 还是说需要自己去处理下过滤那块. 乱了, 不知道怎么下手了

写回答

2回答