爬取其他网页（豆瓣）的时候，抓取的htmls字符串好像不全

来源：13-4 VSCode中调试代码

德瑞德

2017-10-24

想抓豆瓣热门电影并且排个名，用一样的代码，但是在 __fetch_content 方法中想要的 htmls 字符（电影名字和评分）抓不出来，请问老师这是怎么回事？

链接：https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

写回答

2回答

7七月

2017-10-24

可能这个页面的内容是通过脚本发Ajax获取的动态数据。所以直接抓取是抓不到的。

runzx

2017-10-24

你选的这个页面是动态页面，就是说你用urllib.request访问的内容和你在PC上看到的不是一个。所以直接__fech_content() 是抓不到的。要编写模拟网页能的执行JS的方法，才能最终取得你IE上看到的内容。

这可以直接取回JSON格式的内容。

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14893 学习 · 4505 问题

相似问题

回答 1

回答 1

回答 2

回答 2

回答 1