关于selenium自动登录知乎

来源:6-17 知乎spider爬虫逻辑的实现以及answer的提取 - 1

子辰兄

2019-10-20

是否应该考虑下是否是首次登录呢,按照当前的逻辑,例如首次登录不需要输入验证码登录成功了,但是依然会进入while循环判断,但此时走到验证码识别部分,会导致报错使程序崩溃退出,如果在调用browser.get时就先判断能不能获取登录页后的标记元素,根据获取情况再判断,能获取直接return 进入parse函数,如果不能说明是登录页面,使其继续执行登录那一套流程,这样考虑可以吗?

写回答

2回答

bobby

2019-10-22

通过browser.get之后判断是否已经登录了这种做法不好,因为每次启动selenium都是一个新的没有cookie历史的浏览器,除非采用远程连接到chrome的方式才可行,所以一般都是将cookie保存在文件中,启动之前加载cookie并使用这个cookie访问一下首页看看是否已经登录了

0
0

子辰兄

提问者

2019-10-20

老师,还有一个比较明显的问题是我在debug时进入到parse函数时虽然可以获取到url,但是此时chrome浏览器知乎页面会闪退,这种情况正常吗?而且我保存在本地文件的cookie是乱码的这种情况有影响吗?

0
1
bobby
cookie只要能用,保存到文件中是乱码可以不用管,debug闪退有点奇怪,如果不debug会闪退吗?
2019-10-22
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5829 学习 · 6293 问题

查看课程