如何判断网页是静态还是动态?
来源:14-2 需求分析

weixin_慕莱坞5034374
2021-03-20
老师你好,
在这节课的例子中你提到了通过查看 div标签的方式来判断网页是否有js 或ajax加载,我的疑惑是:
1. Chrome - F12 - elements 和 网页源代码 出来出来的html有何区别
2. HTML和XML之间到底是什么关系?我知道一个网页的文本下载下来后是HTML,但是我们解析的时候xpath解的又是XML。XML和HTML之间可以自由的相互转换吗?为什么不能用scrapy直接在html上抓取数据?
3. 除了你提到的这种方法,业届在做爬虫的时候还会用什么方法来判断静态动态?
可能我在一些地方的理解有误,希望老师不吝赐教
写回答
1回答
-
bobby
2021-03-22
通过f12查看网页是不是静态网页不可靠,最好的方法是查看源码 通过html分析才行,在网站上f12都是执行过js之后的源码,所以对于比一下html和f12之后的html看看是否不一样就能确定是否是动态网页,一个网页也不一定是全部都是动态的,可能只有某一些元素是通过js动态加载的。
xpath最初是为xml服务的,实际上xml和html非常相似,都是有层级结构的,所以在实际执行的时候会把解析xml的原理也应用于html上,实际上你深入理解了xml以后你就会发现xml是有一种语法可以直接通过xml展示成html的,这些数据之间都可以互相转换
20
相似问题