关于爬虫

来源:4-2 Flask入门

全是甘货

2019-02-27

老师,请问你在群里的QQ是哪位啊?

问题本身,拜读了老师的实战作品和问答,有教到使用requests库,获取cookie,来拿到【需要登录】的网站
的页面数据。

我出于工作便利需要,也想通过爬虫拿到一些页面数据再行处理,但学生以为,从浏览器登录–F12拿到cookie和useragent–复制到pyhton脚本,总觉得此过程挺落后的(虽然粗暴快捷),因我写好的脚本可能给不会手动拿cookie的同事使用,有没有更友好的实现思路呢,比如画个登录面板(当然,这个思路比较折腾)?

写回答

1回答

NavCat

2019-02-28

同学学得不错,值得表扬。通过浏览器F12拿到cookie确实是不方便爬取的,只是让同学们理解爬虫的原理。因为是初级的课程,做到自动登录会涉及到更多的知识点,所以这部分没有讲到。

思路是这样的:

  1. 通过爬取登陆页,分析网站的的登录原理,登录需要哪些字段,如:用户名、密码等

  2. 通过xpath解析出这些字段对应的内容

  3. 模拟请求实现登录

  4. 如果登录需要识别图片验证码,需要将验证码图片保存下来,弹窗输入,或者是使用图片识别技术,甚至是调用第三方识别的接口来处理

  5. 如果登录失败,需要解析是哪些错误,给予提示,做到自动重试

  6. 登录成功后将cookie全局保存

  7. 爬取登录后的内容


0
2
NavCat
回复
全是甘货
不客气,对你有用才是真的好!
2019-02-28
共2条回复

手把手教你把Python应用到实际开发 不再空谈语法

学会项目开发思路,掌握Python高阶用法。

1341 学习 · 244 问题

查看课程