爬虫方向的学习路线
来源:3-4 10、2、8、16进制
qq_拱手河山讨欢_0
2019-03-28
七月老师 你好。 学完你的python基础后,我又学了web,但是现在我想学习下爬虫,为自己加点竞争力。
所以我自己制定了一个学习路线。
网络请求的库:我看了 urllib, request
网页解析: bs4, 正则,xpath,pyjquery,css选择器
我想的是学习完这些,然后在去看框架课,学习多线程,多进程 分布式爬虫。
我想问的是我的学习路线正确吗?
还有一个网页解析的工具太多了,是全部学完吗?还是掌握其中的一些?
工作中爬虫常用到的工具是哪些那?
最后谢谢七月老师。
写回答
2回答
-
爬虫以实用为主,不要去学学这个学学那个。我个人认为 bs4、正则、requests库就是最基本的工具,用好能解决很多问题。爬虫更多的难点在如何应对反爬和如何确保爬虫引擎自动话运行,不需要人工干预。至于xpath这些我觉得只是可选的。
最多在看看scarpy吧。
612019-03-28 -
7七月
2019-03-28
建议就是爬虫要实战,试着做一个不间断爬取自动运行,自动纠错的爬虫。然后再尝试做个网站把爬取的内容展示出来。这个过程中差什么补什么学什么。记住爬虫最难的是 自动纠错和不间断爬取。如果你写个爬虫1小时要去看看挂了没,然后手动重启撒的,那这爬虫太简单了,没技术含量。
90
相似问题