关于爬虫

首页课程实战体系课手记专栏慕课教程

关于爬虫

来源：4-2 Flask入门

全是甘货

2019-02-27

老师，请问你在群里的QQ是哪位啊？

问题本身，拜读了老师的实战作品和问答，有教到使用requests库，获取cookie，来拿到【需要登录】的网站
的页面数据。

我出于工作便利需要，也想通过爬虫拿到一些页面数据再行处理，但学生以为，从浏览器登录–F12拿到cookie和useragent–复制到pyhton脚本，总觉得此过程挺落后的（虽然粗暴快捷），因我写好的脚本可能给不会手动拿cookie的同事使用，有没有更友好的实现思路呢，比如画个登录面板（当然，这个思路比较折腾）？

写回答

1回答

NavCat

NavCat

2019-02-28

同学学得不错，值得表扬。通过浏览器F12拿到cookie确实是不方便爬取的，只是让同学们理解爬虫的原理。因为是初级的课程，做到自动登录会涉及到更多的知识点，所以这部分没有讲到。

思路是这样的：

通过爬取登陆页，分析网站的的登录原理，登录需要哪些字段，如：用户名、密码等
通过xpath解析出这些字段对应的内容
模拟请求实现登录
如果登录需要识别图片验证码，需要将验证码图片保存下来，弹窗输入，或者是使用图片识别技术，甚至是调用第三方识别的接口来处理
如果登录失败，需要解析是哪些错误，给予提示，做到自动重试
登录成功后将cookie全局保存
爬取登录后的内容

0

2

NavCat

回复

全是甘货

不客气，对你有用才是真的好！

2019-02-28

共2条回复

手把手教你把Python应用到实际开发不再空谈语法

学会项目开发思路，掌握Python高阶用法。

1341 学习 · 244 问题

相似问题

老师，运行京东网的爬虫出现错误

回答 1

京东的爬取不出来

回答 1

京东数据爬不到

回答 1

老师，为什么使用优化后的代码，输出的一号店的数据上的店铺只有一个字啊？单独用一号店的爬虫爬就是正常的

回答 4

老师，您好

回答 1

打开慕课网App查看更多内容