我要提取的有两个div 如何提取呢,去掉贪婪模式?

来源:13-9 数据精炼

毛毛和吉吉

2020-09-09

图片描述
from urllib import request
import requests
from io import BytesIO
import gzip
import re

url = ‘https://www.douyu.com/g_DOTA2
#这里如果用group的话就提取不到代码块中间的dev
root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>'
r = request.urlopen(url)
htmls = r.read()
buff = BytesIO(htmls)
f = gzip.GzipFile(fileobj=buff)
htmls = f.read().decode(‘utf-8’)
root_html = re.findall(root_pattern, htmls)
for html in root_html:
print(html)

写回答

2回答

7七月

2020-09-09

你要提取的具体是哪部分内容可否标记出来

0
3
毛毛和吉吉
回复
7七月
谢谢老师
2020-09-10
共3条回复

毛毛和吉吉

提问者

2020-09-09

root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>' 修改为

root_pattern = '<div class=“DyListCover-info”>([\s\S]*?)</h2>'  

目前可以匹配出我想要的内容,不知道是否符合规则逻辑

0
0

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14446 学习 · 4438 问题

查看课程