xpath解析

来源:12-1 新建scrapy项目

单车哥哥

2019-05-22

图片描述
老师,我用xpath对HTML进行解析时,div_list作用是将每个帖子按照 li 进行分组(由于每个帖子包含在li标签里),div_list怎么返回的空列表呀,xpath没写错呀
(是自己的练习题,爬取贴吧的每个帖子文本和url地址)
是哪儿出了问题呢?求老师帮忙解答:

写回答

3回答

bobby

2019-05-24

我看到你这里抓取的是贴吧,而且你这里说的是xpath没有问题,那你有没有看过这个是不是动态页面呢? //img.mukewang.com/szimg/5ce79f3c0001acf217660617.jpg 这个是html源码,课程中也强调过要以抓取回来的html为准,这个可以看出来这里不是html元素, 不要以浏览器的f12中看到的html为准

1
0

bobby

2019-05-27

//img.mukewang.com/szimg/5ceb88f100015e3e13480335.jpg 你注意看一下这个地方可以被注释了的,不是属于html的正文内容

0
0

单车哥哥

提问者

2019-05-24

老师,是因为elements中的内容和response里的一样的我才在elements中写xpath的,他的每个  li 标签就是一个帖子,这次我换了,我采用<ul >来将他们分成一个个帖子列表,然后再遍历。

实在不知道为何获取不了一个个li标签里的内容,有的人说是内容被注释了,有的人让我去掉headers(这个方法可行,但是不知道为什么)


//img.mukewang.com/szimg/5ce7a70d00010e7714730706.jpg

//img.mukewang.com/szimg/5ce7a72e0001a2dc08360555.jpg


0
0

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2377 学习 · 1158 问题

查看课程