跳转链接怎么抓取
来源:7-6 item loader方式解析职位
sofeng
2017-04-19
老师,有一些跳转链接怎么抓取真实的跳转后的链接。
好比,http://www.smzdm.com/p/7158526/ 这个页面有个“直达链接”,它的地址为http://go.smzdm.com/2836fed0115cebae/ca_aa_yh_113_7158526_758_3161_4845
怎么抓取真实的跳转后的1药店的网址。
谢谢老师提供的这么好的教程。
写回答
1回答
-
谢谢对课程的支持, scrapy遇到301或者302会自动跳转 response回来的url就是跳转后的url, 如果不希望scrapy跳转可以直接在spider中设置handle_httpstatus_list = [404, 301, 302] 这种, 如果设置了scrapy就不会跳转了,应该可以通过response获取到301之后的跳转地址, 在scrapy的进阶中我有讲到这些知识点
012017-04-23
相似问题