珍爱网的爬虫里面个人信息测试部分,如果我把测试的html<td>加一个换行符就无法匹配了,这个应该如何处理?

来源:15-9 用户信息解析器(下)

jacklam1988

2018-04-13

珍爱网的爬虫里面个人信息测试部分,如果我把测试的html<td>加一个换行符就无法匹配了,这个应该如何处理?

写回答

1回答

ccmouse

2018-04-13

的确像我课上说的,正则表达式,一简单,二通用。但是用来解析html,最好使用其他如css选择器之类的懂得html语法的工具。那么这里的话正则表达式还要加入\s来识别换行符,空格之类的。比如

<td><span class="label">年龄:</span>(\d+)岁\s*</td>

具体的正则表达式格式可以运行go doc regexp/syntax 来查看。


0
1
jacklam1988
非常感谢!
2018-04-14
共1条回复

Google资深工程师深度讲解Go语言 由浅入深掌握Go语言

语法+分布式爬虫实战 为转型工程师量身打造

5995 学习 · 1909 问题

查看课程