跳转链接怎么抓取

来源:7-6 item loader方式解析职位

sofeng

2017-04-19

老师,有一些跳转链接怎么抓取真实的跳转后的链接。

好比,http://www.smzdm.com/p/7158526/ 这个页面有个“直达链接”,它的地址为http://go.smzdm.com/2836fed0115cebae/ca_aa_yh_113_7158526_758_3161_4845

怎么抓取真实的跳转后的1药店的网址。

谢谢老师提供的这么好的教程。

写回答

1回答

bobby

2017-04-20

谢谢对课程的支持, scrapy遇到301或者302会自动跳转 response回来的url就是跳转后的url, 如果不希望scrapy跳转可以直接在spider中设置handle_httpstatus_list = [404, 301, 302] 这种, 如果设置了scrapy就不会跳转了,应该可以通过response获取到301之后的跳转地址, 在scrapy的进阶中我有讲到这些知识点

0
1
sofeng
非常感谢!
2017-04-23
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程