关于爬取数据时定界的问题

来源:13-7 正则分析HTML

慕虎7285934

2019-07-25

老师在获取名字和关注人数时这两个的标签是span 然后用上一级的div 定界的,如果这个三个的标签是一致的span 那么用刚才的方式的定界拿中间数据时就只会取到名字这一个数据的内容,请问这种情况的思路是什么样子的

写回答

2回答

hsbzzhz

2019-10-27

我也遇到了这样的问题,然后了解到用beautifulsoup可以轻松解决,但是那就不是正则了

尝试解决了一下:

root_pattern  = '<i class="nick" title=[\s\S]*?</i></span>'


0
0

IoTus3

2019-07-26

1、可以用pyquery,采取类似

from pyquery import PyQuery as Q
Q(text).find('.xxx-info div').text()

2、采用beautifulsoup

0
1
慕虎7285934
网上搜索了pyquery的用法 确实可以达到我要求的功能
2019-07-26
共1条回复

Python3.8系统入门+进阶 (程序员必备第二语言)

语法精讲/配套练习+思考题/原生爬虫实战

14446 学习 · 4438 问题

查看课程