仅仅更改了url和root_pattern的值就出现了如下的报错

来源:13-7 正则分析HTML

二海_

2020-03-10

图片描述
原网页截图如下:
图片描述
代码如下:

import re

from urllib import request

#爬取斗鱼绝地求生主播及其观看量,并降序排列
class Spider():
    url = 'https://www.douyu.com/g_jdqs'
    root_pattern = '<div class="DyListCover-hot">[/s/S]*?</div>'

    # 文本抓取方法
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls, encoding='UTF-8')
        return htmls

    # 数据分析方法    
    def __analysis(self,htmls):
        root_html = re.findall(Spider.root_pattern, htmls)
        a = 1

    # 总控方法
    def go(self):
        htmls = self.__fetch_content()
        self.__analysis(htmls)

spider = Spider()
spider.go()
写回答

1回答

7七月

2020-03-10

用虎牙写,斗鱼网页加密了,需要gzip解压。

0
4
7七月
回复
二海_
怎么说呢,思路就是课程里讲的。每个网页的不同,只能自己分析啊。就是找到一个独特的 标识,然后抓取这个独特的标识,然后提取网页内容。都是通用的思路,只是具体的HTML只能自己分析找到独特的标识。
2020-03-11
共4条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14650 学习 · 4478 问题

查看课程