爬虫的进阶学习
来源:17-1 课程总结
慕尼黑530398
2018-01-20
老师好,我用老师教的知识解决了很多实际问题。现在我在实际工作的时候遇到很多url都是 js加密的,破解对方的加密方法经常让我很头疼,为了更好的解决问题,我的下一步学习应该朝着那个方向呢?是需要系统学习js和前端的知识么?还是其他的什么,老师给指条名路。
写回答
1回答
-
bobby
2018-01-22
url加密是某些参数加密了而已, 不会对整个url加密, 这些问题最有效的方式是去分析页面,有可能这个加密字符串会放到html源码中, 也有可能放到js的逻辑中, 如果放到页面的html源码中是比较简单的, 但是如果是js逻辑加密的就比较复杂了 需要自己去分析js逻辑, 还有个简单的方式就是用selenium, 如果有些逻辑你觉得分析麻烦就直接操控浏览器去模拟点击然后直接分析源码就行了, 学习爬虫最好是有前端知识,不然会遇到各种问题, 爬虫的数据爬取一般分为爬取范围广, 比如爬虫这种是爬全网, 这些就很难做到这种动态网页的抓取,因为他费精力, 要不然就是定向网站抓取,这些最好是分页页面,因为要抓取的数据很精确, 所以需要分页页面以及数据结构等等
022018-01-29
相似问题