我要提取的有两个div 如何提取呢,去掉贪婪模式?
来源:13-9 数据精炼
 
			毛毛和吉吉
2020-09-09

from urllib import request
import requests
from io import BytesIO
import gzip
import re
url = ‘https://www.douyu.com/g_DOTA2’
#这里如果用group的话就提取不到代码块中间的dev
root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>'
r = request.urlopen(url)
htmls = r.read()
buff = BytesIO(htmls)
f = gzip.GzipFile(fileobj=buff)
htmls = f.read().decode(‘utf-8’)
root_html = re.findall(root_pattern, htmls)
for html in root_html:
print(html)
写回答
	2回答
- 
				
				你要提取的具体是哪部分内容可否标记出来 032020-09-10
- 
				  毛毛和吉吉 提问者 2020-09-09 root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>' 修改为 root_pattern = '<div class=“DyListCover-info”>([\s\S]*?)</h2>' 目前可以匹配出我想要的内容,不知道是否符合规则逻辑 00
相似问题
