标签之外的文本如何获取?

来源:2-8 爬取当当网的数据

天蝎卧凤先生

2020-07-22

譬如<span id="a">A</span> b <br />,我想获得b,该怎么写呢?
再譬如:出版社: 商务印书馆
我想得到“商务印书馆”,怎么用xpath语句解析?

写回答

1回答

NavCat

2020-07-23

问题1:

取父级元素的文本,示例代码:

from lxml import html
html_data = """
<html>
<body>
<div id="b">
<span id="a">A</span> b <br />
</div>
</body>
</html>
"""
# xpath对象
selector = html.fromstring(html_data)

ul_list = selector.xpath('//div[@id="b"]/text()')
print(ul_list)
print(ul_list[0])

问题2:

你直接使用字符串分割就可以了,参考代码:

s = "出版社: 商务印书馆"
s2 = s.split(':')[1]


0
0

手把手教你把Python应用到实际开发 不再空谈语法

学会项目开发思路,掌握Python高阶用法。

1341 学习 · 244 问题

查看课程