老师帮我看一下拉钩网的一个response为什么无法获取到数据

来源:11-3 实现cookie池-1

慕斯卡6029232

2020-06-01

返回是200,也没有重定向,日志也是完全正常,但是抓到了另一个页面。
这是怎么回事呢,速度已经设置的很慢了,用的scrapy-redis,和这个有关系吗。

这是日志

2020-06-01 17:09:52 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lagou.com/utrack/trackMid.html?f=https%3A%2F%2Fwww.lagou.com%2Fjobs%2F7226747.html%3Fshow%3Dc05f75f0d8e64ff5b4d05d9f2d8e3989&t=1591002590&_ti=1> (referer: https://www.lagou.com/zhaopin/PHP/)

这是抓取到的内容

b'<html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body><script src="/utrack/track.js?version=1.0.1.0" type="text/javascript"></script><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1591002594"></script><input type="hidden" id="KEY" value="dR0fWCWdq7YXHQnturqsROc3FhxTTSNIe1HCX5cSXP"/><script type="text/javascript">HWPKEQnw();</script>\xe9\xa1\xb5\xe9\x9d\xa2\xe5\x8a\xa0\xe8\xbd\xbd\xe4\xb8\xad...<script type="text/javascript" crossorigin="anonymous" src="https://www.lagou.com/upload/oss.js?v=1010"></script></body></html>\n'

图片描述

图片描述

写回答

2回答

慕斯卡6029232

提问者

2020-06-01

这个问题怎么解决,延迟写了10秒还是重定向过去了

0
3
bobby
回复
慕斯卡6029232
好的。
2020-06-04
共3条回复

慕斯卡6029232

提问者

2020-06-01

老师拉勾网策略变了吗。我发现现在的302会redirect到它本来的ip地址。但是爬虫抓不到东西了

2020-06-01 17:33:54 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.lagou.com/utrack/trackMid.html?f=https%3A%2F%2Fwww.lagou.com%2Fjobs%2F5823470.html%3Fshow%3D9c3f14831c9a4f03ac448d6c23b6237d&t=1591004035&_ti=1> from <GET https://www.lagou.com/jobs/5823470.html?show=9c3f14831c9a4f03ac448d6c23b6237d>

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程