正则表达式解析出了问题,麻烦老师给指导指导

来源:14-7 分析和获取所有的版块 - 1

哦呀v度

2019-06-25

图片描述
import re
import ast
import requests

def get_nodes_jison():
left_menu_text = requests.get(‘https://bbs.csdn.net/dynamic_js/left_menu.js?csdn’)
#html = left_menu_text.content.decode(“Unicode”)
#print(html)
#print(type(html))
print(type(left_menu_text))

nodes_str_match = re.search("forumNodes: (.*])",left_menu_text)
if nodes_str_match:
    nodes_str = nodes_str_match.group(1).replace("null","None")
    nodes_list = ast.literal_eval(nodes_str)
    return nodes_list
return []

def process_nodes_list(nodes_list):
url_list=[]
for item in nodes_list:
if “ur1” in item:
url_list.append(item[“url”])
if “children” in item:
process_nodes_list(item[“children”])
nodes_list = get_nodes_jison()
process_nodes_list(nodes_list)
print(url_list)
我看了一下 请求的服务器返回的是个<class ‘requests.models.Response’>这么个类,正则表达式解析的不应该是字符串吗?然后试着将这个类转换为字符串但是内容为unicode编码,不知道该怎么转换过来

写回答

1回答

bobby

2019-06-26

//img.mukewang.com/szimg/5d12ff9a00018b9707950115.jpg 这个地方应该是left_menu_text.text

0
4
bobby
回复
哦呀v度
好的,
2019-06-28
共4条回复

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2377 学习 · 1158 问题

查看课程