拉勾网重定向无法爬取

来源:7-6 item loader方式解析职位

L风之岚歌

2017-10-08

在用scrapy进行拉勾网站的爬取,我想抓取python 相关的职位,start_url="https://www.lagou.com/zhaopin/Python/?labelWords=label",

但是我用pycharm调试功能查看,爬虫运行之后,会把这条链接重定向到

"https://www.lagou.com/utrack/trackMid.html?f=https%3A%2F%2Fpassport.lagou.com%2Flogin%2Flogin.html%3Fmsg%3Dvalidation%26uStatus%3D2%26clientIp%3Dxx.xx.xx.xx1&t=1507458004&_ti=1"这个地方,然后查看response.text也没有内容,也增加了headers,可是在浏览器里却可以正常访问,排查了好长时间,始终不知道拉勾网是怎么知道scrapy请求和浏览器请求区别的,没有找到知道问题所在,为啥连第一个url都不能请求,还有一点我继承的是Spider类,这个连接的内容在scrapy shell 里边却可以获取.

以下截图分别是源码/控制台输出/response.text内容/scrapy shell请求url,并查看text内容:

http://szimg.mukewang.com/59da02010001f79109190493.jpg

http://szimg.mukewang.com/59da0201000147fa15030295.jpg

http://szimg.mukewang.com/59da02010001939e11990543.jpg

http://szimg.mukewang.com/59da02020001014c10620446.jpg

求老师解惑

写回答

3回答

L风之岚歌

提问者

2017-10-09

问题已解决,谢谢老师!

2
4
blowwind
请问是怎么解决的,高手!
2019-02-15
共4条回复

缘茜行

2019-06-26

求问怎么解决的啊,我也遇到了相同的问题

0
0

Biandonglei

2019-02-08

我这边也有这个问题,怎么解决的的???

0
2
天上掉下个小馅饼
我又试了一下,就算不用代理ip的话好像也可以,就是要每次开启爬虫时要自己先登录一下就好了
2019-02-18
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程