关于爬虫
来源:4-2 Flask入门

全是甘货
2019-02-27
老师,请问你在群里的QQ是哪位啊?
问题本身,拜读了老师的实战作品和问答,有教到使用requests库,获取cookie,来拿到【需要登录】的网站
的页面数据。
我出于工作便利需要,也想通过爬虫拿到一些页面数据再行处理,但学生以为,从浏览器登录–F12拿到cookie和useragent–复制到pyhton脚本,总觉得此过程挺落后的(虽然粗暴快捷),因我写好的脚本可能给不会手动拿cookie的同事使用,有没有更友好的实现思路呢,比如画个登录面板(当然,这个思路比较折腾)?
写回答
1回答
-
NavCat
2019-02-28
同学学得不错,值得表扬。通过浏览器F12拿到cookie确实是不方便爬取的,只是让同学们理解爬虫的原理。因为是初级的课程,做到自动登录会涉及到更多的知识点,所以这部分没有讲到。
思路是这样的:
通过爬取登陆页,分析网站的的登录原理,登录需要哪些字段,如:用户名、密码等
通过xpath解析出这些字段对应的内容
模拟请求实现登录
如果登录需要识别图片验证码,需要将验证码图片保存下来,弹窗输入,或者是使用图片识别技术,甚至是调用第三方识别的接口来处理
如果登录失败,需要解析是哪些错误,给予提示,做到自动重试
登录成功后将cookie全局保存
爬取登录后的内容
022019-02-28
相似问题