关于爬取数据时定界的问题
来源:13-7 正则分析HTML
慕虎7285934
2019-07-25
老师在获取名字和关注人数时这两个的标签是span 然后用上一级的div 定界的,如果这个三个的标签是一致的span 那么用刚才的方式的定界拿中间数据时就只会取到名字这一个数据的内容,请问这种情况的思路是什么样子的
写回答
2回答
-
hsbzzhz
2019-10-27
我也遇到了这样的问题,然后了解到用beautifulsoup可以轻松解决,但是那就不是正则了
尝试解决了一下:
root_pattern = '<i class="nick" title=[\s\S]*?</i></span>'
00 -
IoTus3
2019-07-26
1、可以用pyquery,采取类似
from pyquery import PyQuery as Q Q(text).find('.xxx-info div').text()
2、采用beautifulsoup
012019-07-26
相似问题