京东商城爬取时多出了一个超出目标范围的商品
来源:2-9 爬取京东网的数据

飞尘
2019-01-22
在爬去京东的商品的时候把旁边的广告商品也爬去进去了,这是为什么
ul_list=selector.xpath(’//div[@class=“ml-wrap”]/div[@id=“J_goodsList”]/ul[@class=“gl-warp clearfix”]/li[@class=“gl-item”]’)
这是要爬去的数据列表,但是爬去到最后的结果是把旁边的广告列表页爬取了
商品名称:【亮铂金键盘套装】微软(Microsoft)Surface Pro 6 二合一平板电脑笔记本
商品价格:6988.00
[]
这个是广告列表里面的商品
写回答
1回答
-
NavCat
2019-01-22
这样你就需要仔细分析京东页面的结构了,对比一下广告商品和列表的商品HTML结构有什么不一样,然后根据不一样的地方重新写xpath表达式进行爬取就解决了
00
相似问题