我要提取的有两个div 如何提取呢，去掉贪婪模式？

首页课程实战体系课手记专栏慕课教程

我要提取的有两个div 如何提取呢，去掉贪婪模式？

来源：13-9 数据精炼

毛毛和吉吉

2020-09-09

图片描述
from urllib import request
import requests
from io import BytesIO
import gzip
import re

url = ‘https://www.douyu.com/g_DOTA2’
#这里如果用group的话就提取不到代码块中间的dev
root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>'
r = request.urlopen(url)
htmls = r.read()
buff = BytesIO(htmls)
f = gzip.GzipFile(fileobj=buff)
htmls = f.read().decode(‘utf-8’)
root_html = re.findall(root_pattern, htmls)
for html in root_html:
print(html)

写回答

2回答

7七月

7七月

2020-09-09

已采纳

你要提取的具体是哪部分内容可否标记出来

0

3

毛毛和吉吉

回复

7七月

谢谢老师

2020-09-10

共3条回复

毛毛和吉吉

毛毛和吉吉

提问者

2020-09-09

root_pattern = '<div class=“DyListCover-info”>[\s\S]*?</div>' 修改为

root_pattern = '<div class=“DyListCover-info”>([\s\S]*?)</h2>'

目前可以匹配出我想要的内容，不知道是否符合规则逻辑

0

0

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14893 学习 · 4505 问题

相似问题

非贪婪{3,6}？加个问号？与{3}有什么区别？输出结果不是一样吗？为什么要输多几个字符？

回答 2

老师，为什么r4的取值和r41不一样呢？可以解释一下r4的取值吗？

回答 1

非贪婪匹配问题

回答 2

老师，你好。正则表达式问题

回答 1

假如我要提取字符串中的两个数呢

回答 1

打开慕课网App查看更多内容