selenium 集成到scrapy中 登录问题

来源:9-4 selenium集成到scrapy中

Huston

2018-11-09

老师,我最近试着自己爬取一个电影网站的种子url,这个网站必须登录后才能看到种子url。我反复看你讲的模拟登陆等课,依然不太能理解。在spiders中我已经把开始url和下一页url都提取出来并且可以爬取不需要登录的所有内容,我不太理解怎么在Middleware中通过selenium用chrome模拟登录后怎么把登录状态给到Spider,让Spider能够抓取登录后才能看到的内容。希望老师能帮忙解答一下,这个问题困扰了我好几天了…尝试了很多方法还是失败…

写回答

1回答

bobby

2018-11-11

在知乎的章节中我讲解过通过selenium登录知乎后将cookie设置给任何一个request就可以在后续的所有request中都能获取到这个cookie,我估计你是对这个地方不理解,这是如何做到的, 这是因为scrapy有一个默认的middleware,这个组件其实会从之前的request中提取所有的cookie并设置给后面的每一个request中,所有这个登录状态后续的所有request都能复用,如果你对这个源码有兴趣的话可以看看这个

//img.mukewang.com/szimg/5be7ad280001784005380400.jpg

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程