标签之外的文本如何获取?
来源:2-8 爬取当当网的数据

天蝎卧凤先生
2020-07-22
譬如<span id="a">A</span> b <br />
,我想获得b,该怎么写呢?
再譬如:出版社: 商务印书馆
我想得到“商务印书馆”,怎么用xpath语句解析?
写回答
1回答
-
NavCat
2020-07-23
问题1:
取父级元素的文本,示例代码:
from lxml import html html_data = """ <html> <body> <div id="b"> <span id="a">A</span> b <br /> </div> </body> </html> """ # xpath对象 selector = html.fromstring(html_data) ul_list = selector.xpath('//div[@id="b"]/text()') print(ul_list) print(ul_list[0])
问题2:
你直接使用字符串分割就可以了,参考代码:
s = "出版社: 商务印书馆" s2 = s.split(':')[1]
00
相似问题