我要提取的有两个div 如何提取呢,去掉贪婪模式?
来源:13-9 数据精炼
毛毛和吉吉
2020-09-09
from urllib import request
import requests
from io import BytesIO
import gzip
import re
url = ‘https://www.douyu.com/g_DOTA2’
#这里如果用group的话就提取不到代码块中间的dev
root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>'
r = request.urlopen(url)
htmls = r.read()
buff = BytesIO(htmls)
f = gzip.GzipFile(fileobj=buff)
htmls = f.read().decode(‘utf-8’)
root_html = re.findall(root_pattern, htmls)
for html in root_html:
print(html)
写回答
2回答
-
你要提取的具体是哪部分内容可否标记出来
032020-09-10 -
毛毛和吉吉
提问者
2020-09-09
root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>' 修改为
root_pattern = '<div class=“DyListCover-info”>([\s\S]*?)</h2>'
目前可以匹配出我想要的内容,不知道是否符合规则逻辑
00
相似问题