京东商城爬取时多出了一个超出目标范围的商品

来源:2-9 爬取京东网的数据

飞尘

2019-01-22

在爬去京东的商品的时候把旁边的广告商品也爬去进去了,这是为什么
ul_list=selector.xpath(’//div[@class=“ml-wrap”]/div[@id=“J_goodsList”]/ul[@class=“gl-warp clearfix”]/li[@class=“gl-item”]’)
这是要爬去的数据列表,但是爬去到最后的结果是把旁边的广告列表页爬取了

商品名称:【亮铂金键盘套装】微软(Microsoft)Surface Pro 6 二合一平板电脑笔记本
商品价格:6988.00
[]

这个是广告列表里面的商品

写回答

1回答

NavCat

2019-01-22

这样你就需要仔细分析京东页面的结构了,对比一下广告商品和列表的商品HTML结构有什么不一样,然后根据不一样的地方重新写xpath表达式进行爬取就解决了

0
0

手把手教你把Python应用到实际开发 不再空谈语法

学会项目开发思路,掌握Python高阶用法。

1341 学习 · 244 问题

查看课程