关于filtered duplicate request的疑惑?

首页课程实战体系课手记专栏慕课教程

关于filtered duplicate request的疑惑?

来源：7-7 职位数据入库-1

慕粉1946152704

2019-09-25

老师,下面日志中这个filtered duplicate request让我很疑惑:
图片描述
这些request看上去像是在 dont_filter=False 的情况下被过滤掉的,但是我的spider脚本如下:

这些被过滤掉的URL, 例如 hz.lianjia.com/chengjiao/xihu/ 明明是第一次取,却被filtered,看上去很像是由于和 hz.lianjia.com/chengjiao/ 重了而被去重的.
但是这两个URL明显是不一样的.不符合scrapy的去重规则呀, 请问老师这个URL被filtered的原因是什么?

写回答

3回答

bobby

bobby

2019-09-26

已采纳

这种url明显不是一个url，指纹肯定不一样。如果说第一个访问后第二个不会访问了需要确保一下是不是第二个url已经访问过导致这个url的指纹会被放到缓存中

0

1

慕粉1946152704

老师, 问题有修改, 请您过目?

2019-09-26

共1条回复

qq_慕侠6486208

qq_慕侠6486208

2021-04-27

请问你这个问题解决了吗？我也遇到了类似的问题，找不到解决的办法

0

1

bobby

上面该同学提到的两个url不是说因为这两个url去重的，refer的意思是当前的url的前一个url是refer中的url，也就是当前的url是通过refer的url中点击过来的

2021-04-27

共1条回复

bobby

bobby

2019-09-28

你试一下在每个request的参数中加上参数 dont_filter=False试试会不会被过滤掉

0

1

慕粉1946152704

老师，代码中我用的是crawlspider，好像没有重写request的机会，而且request的dont_filter默认是false的

2019-09-28

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5825 学习 · 6292 问题

相似问题

filtered offsite request的疑惑?

回答 1

关于去重的两点疑惑

回答 1

爬取lagou时报错无法获取内容

回答 1

_mysql_exceptions.IntegrityError: (1062, "Duplicate entry

回答 1

Filtered offsite request to

回答 3

打开慕课网App查看更多内容