请教老师一个问题,关于爬虎牙的

来源:13-12 案例总结

慕设计3439860

2019-04-28

1、就是我做了一个爬虎牙英雄联盟的爬虫,功能基本能实现,但有个疑问就是爬的信息是当前页面下主播的名字和人气,如何实现比如第二页信息的爬取呢?我数了下我爬的主播人数是120名主播,正好对应当前页主播的数量,如何实现比如说下一页主播的信息也一并爬取呢?第二页的网址和第一页的网址是一样的

写回答

1回答

7七月

2019-04-29

从爬取的html中分析出下一页的url,然后发送请求 请求第二页的html,分析页面数据,然后是第三页url,依次循环到最后一页。

0
4
慕设计3439860
回复
7七月
老师,在用requests.get方法时返回的是一个respon对象,然后这个对象里有两种属性,一种是text还有一种是content。response.text返回的是字符串形式的内容而content返回的是字节流,可以通过a = response.text.encode.decode()以及b = response.content.decode()这里种方法获取html的信息,但我试了下,这两种方法得到的结果是带unicode的,无法转换为所需要的中文形式,我又去查了下说是要在decode()中加上 'unicode_escape'才能变成,确实加上了这个就能得到中文的形式,但'unicode_escape'是什么意思呢?为什么加上它就能返回显式的字符串,而不加它就还是unicode呢?我查了一下没查到结果
2019-05-01
共4条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14447 学习 · 4438 问题

查看课程