你好老师,爬虫爬取的页面如果是js动态加载的内容,该如何获取页面内容

来源:15-10 单任务版爬虫性能

liyongwei

2018-06-08

你好老师,爬虫爬取的页面如果是js动态加载的内容,该如何获取页面内容

写回答

1回答

ccmouse

2018-06-11

这个我们可以使用一下chrome浏览器的调试功能。比如这里面介绍的https://www.cnblogs.com/yuanchaoyong/p/6172034.html

我们不要管js是什么,看看他发出去的请求是怎么样的,请求里的参数又是从页面哪里拿出来的。一般情况下并不需要去试图理解或者(模拟)执行里面的js。

当然,这样的做法只能爬一些简单的js。对于复杂一点的,分析这些参数会很麻烦。的确这样上去爬也不是对方网站希望的,那就只能一点点分析下去了。

对于大型的网站,网上也有些公开的库可以让你去爬,不过由于目标变化太快,这些库用起来很可能也很吃力。

0
0

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1909 问题

查看课程