关于filtered duplicate request的疑惑?

来源:7-7 职位数据入库-1

慕粉1946152704

2019-09-25

老师,下面日志中这个filtered duplicate request让我很疑惑:
图片描述
这些request看上去像是在 dont_filter=False 的情况下被过滤掉的,但是我的spider脚本如下:
图片描述
这些被过滤掉的URL, 例如 hz.lianjia.com/chengjiao/xihu/ 明明是第一次取,却被filtered,看上去很像是由于和 hz.lianjia.com/chengjiao/ 重了而被去重的.
但是这两个URL明显是不一样的.不符合scrapy的去重规则呀, 请问老师这个URL被filtered的原因是什么?

写回答

3回答

bobby

2019-09-26

这种url明显不是一个url,指纹肯定不一样。如果说第一个访问后第二个不会访问了需要确保一下是不是第二个url已经访问过导致这个url的指纹会被放到缓存中

0
1
慕粉1946152704
老师, 问题有修改, 请您过目?
2019-09-26
共1条回复

qq_慕侠6486208

2021-04-27

请问你这个问题解决了吗?我也遇到了类似的问题,找不到解决的办法

0
1
bobby
上面该同学提到的两个url不是说因为这两个url去重的,refer的意思是当前的url的前一个url是refer中的url,也就是当前的url是通过refer的url中点击过来的
2021-04-27
共1条回复

bobby

2019-09-28

你试一下在每个request的参数中加上参数 dont_filter=False试试会不会被过滤掉

0
1
慕粉1946152704
老师,代码中我用的是crawlspider,好像没有重写request的机会,而且request的dont_filter默认是false的
2019-09-28
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程