老师、为什么我虎牙的人气爬不下来的

来源:13-8 正则分析获取名字和人数

Hahn_佩佩

2019-06-14

老师、为什么我虎牙的人气爬不下来的、我单独把人气那里的html拿出来、变成字符串都能读取人气。

1.这个是虎牙的人气的字段
图片描述

2.这个是我的代码
图片描述

3.这个是我request.urlopen下来、有关人气的html
图片描述

4.这个是我的返回、人气是空的
图片描述

5.这个是单独拿出来打印的、感觉我的正则表达式应该对的
图片描述
图片描述

写回答

2回答

fuunyman

2019-06-27

你的正则表达式没写对, 定位的那段代码可以写做

regular = '<span class="txt">([\s\S]*?)</li>'

//img.mukewang.com/szimg/5d1429650001571307580358.jpg

匹配到</span>的后一个</li>标签, 才能包括人气数据, 试试看吧


1
2
安迪喽
没错,好多人都犯这个错误,包括我
2020-06-11
共2条回复

Hahn_佩佩

提问者

2019-06-14

我试着把re.findall(正则表达式, 搜索原)从循环的value变成爬取的html就可以了。但是不知道原理是什么//img.mukewang.com/szimg/5d0319e80001aa6508520520.jpg

0
1
7七月
我觉得 这都是因为正则写的不够精确吧?因为远离上,只要你的html中包含了所有的信息,那么这些信息通过正则都是可以 分解出来的。
2019-06-17
共1条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14447 学习 · 4438 问题

查看课程