selenium 集成到scrapy中 登录问题
来源:9-4 selenium集成到scrapy中
Huston
2018-11-09
老师,我最近试着自己爬取一个电影网站的种子url,这个网站必须登录后才能看到种子url。我反复看你讲的模拟登陆等课,依然不太能理解。在spiders中我已经把开始url和下一页url都提取出来并且可以爬取不需要登录的所有内容,我不太理解怎么在Middleware中通过selenium用chrome模拟登录后怎么把登录状态给到Spider,让Spider能够抓取登录后才能看到的内容。希望老师能帮忙解答一下,这个问题困扰了我好几天了…尝试了很多方法还是失败…
写回答
1回答
-
bobby
2018-11-11
在知乎的章节中我讲解过通过selenium登录知乎后将cookie设置给任何一个request就可以在后续的所有request中都能获取到这个cookie,我估计你是对这个地方不理解,这是如何做到的, 这是因为scrapy有一个默认的middleware,这个组件其实会从之前的request中提取所有的cookie并设置给后面的每一个request中,所有这个登录状态后续的所有request都能复用,如果你对这个源码有兴趣的话可以看看这个
00
相似问题
