仅仅更改了url和root_pattern的值就出现了如下的报错
来源:13-7 正则分析HTML

二海_
2020-03-10
原网页截图如下:
代码如下:
import re
from urllib import request
#爬取斗鱼绝地求生主播及其观看量,并降序排列
class Spider():
url = 'https://www.douyu.com/g_jdqs'
root_pattern = '<div class="DyListCover-hot">[/s/S]*?</div>'
# 文本抓取方法
def __fetch_content(self):
r = request.urlopen(Spider.url)
htmls = r.read()
htmls = str(htmls, encoding='UTF-8')
return htmls
# 数据分析方法
def __analysis(self,htmls):
root_html = re.findall(Spider.root_pattern, htmls)
a = 1
# 总控方法
def go(self):
htmls = self.__fetch_content()
self.__analysis(htmls)
spider = Spider()
spider.go()
写回答
1回答
-
7七月
2020-03-10
用虎牙写,斗鱼网页加密了,需要gzip解压。
042020-03-11
相似问题