仅仅更改了url和root_pattern的值就出现了如下的报错

首页课程实战体系课手记专栏慕课教程

仅仅更改了url和root_pattern的值就出现了如下的报错

来源：13-7 正则分析HTML

二海_

2020-03-10

图片描述
原网页截图如下：

代码如下：

import re

from urllib import request

#爬取斗鱼绝地求生主播及其观看量，并降序排列
class Spider():
    url = 'https://www.douyu.com/g_jdqs'
    root_pattern = '<div class="DyListCover-hot">[/s/S]*?</div>'

    # 文本抓取方法
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding='UTF-8')
        return htmls

    # 数据分析方法    
    def __analysis(self,htmls):
        root_html = re.findall(Spider.root_pattern, htmls)
        a = 1

    # 总控方法
    def go(self):
        htmls = self.__fetch_content()
        self.__analysis(htmls)

spider = Spider()
spider.go()

写回答

1回答

7七月

7七月

2020-03-10

用虎牙写，斗鱼网页加密了，需要gzip解压。

0

4

7七月

回复

二海_

怎么说呢，思路就是课程里讲的。每个网页的不同，只能自己分析啊。就是找到一个独特的标识，然后抓取这个独特的标识，然后提取网页内容。都是通用的思路，只是具体的HTML只能自己分析找到独特的标识。

2020-03-11

共4条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14869 学习 · 4500 问题

相似问题

我要提取的有两个div 如何提取呢，去掉贪婪模式？

回答 2

老师为什么我的Vscode没有实时更新代码的功能（意思是我像你一样将print前面的缩进删除了却没反应（我的linter安装正确））

回答 2

关于pylint报错的问题

回答 1

修改字符？

回答 4

6-13课：最后的题目说的是输出 a 或者 b 中的一个数据，若 a 一直为真的话，那就只能输出 a 的值，若此时想要得到 b 的值不要 a 的值要怎么办？

回答 2

打开慕课网App查看更多内容