爬虫方向的学习路线

来源:3-4 10、2、8、16进制

qq_拱手河山讨欢_0

2019-03-28

七月老师 你好。 学完你的python基础后,我又学了web,但是现在我想学习下爬虫,为自己加点竞争力。
所以我自己制定了一个学习路线。
网络请求的库:我看了 urllib, request
网页解析: bs4, 正则,xpath,pyjquery,css选择器
我想的是学习完这些,然后在去看框架课,学习多线程,多进程 分布式爬虫。
我想问的是我的学习路线正确吗?
还有一个网页解析的工具太多了,是全部学完吗?还是掌握其中的一些?
工作中爬虫常用到的工具是哪些那?
最后谢谢七月老师。

写回答

2回答

7七月

2019-03-28

爬虫以实用为主,不要去学学这个学学那个。我个人认为 bs4、正则、requests库就是最基本的工具,用好能解决很多问题。爬虫更多的难点在如何应对反爬和如何确保爬虫引擎自动话运行,不需要人工干预。至于xpath这些我觉得只是可选的。


最多在看看scarpy吧。

6
1
qq_拱手河山讨欢_0
非常感谢!
2019-03-28
共1条回复

7七月

2019-03-28

建议就是爬虫要实战,试着做一个不间断爬取自动运行,自动纠错的爬虫。然后再尝试做个网站把爬取的内容展示出来。这个过程中差什么补什么学什么。记住爬虫最难的是 自动纠错和不间断爬取。如果你写个爬虫1小时要去看看挂了没,然后手动重启撒的,那这爬虫太简单了,没技术含量。

9
0

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14446 学习 · 4438 问题

查看课程

相似问题