去哪儿网的页面在selenium里面展示不全

来源:9-12 scrapy扩展开发

慕神6516775

2018-12-05

这个月(2018年12月)爬取去哪儿数据的时候,发现他们的网站做了一次更新,导致有些数据爬不到了.

这是我之前爬取的是好中差评数据,如图:

http://img.mukewang.com/szimg/5c0781150001557105750270.jpg

页面是这样的(不需要登陆):

http://hotel.qunar.com/city/shenzhen/dt-872/?tag=shenzhen

http://img.mukewang.com/szimg/5c0783a1000139c509040208.jpg

但是这个月,用selenium打开的页面却变成了这样:

http://img.mukewang.com/szimg/5c07841d00013e7409300248.jpg

ps:  动态运行Js,模拟浏览器下拉到底部,让页面多加载一段时间...这些办法我都试过了.

但就是在selenium加载不出来这些数据,可是手动打开浏览器却可以看到评论数.

除了评论相关的数据,js没有加载出来,其他的房型js数据却又能加载出来,所以并不是js没有加载,


问题: 也就是说手动打开浏览器能看到的数据,放在selenium却看不到了,如何解决这个问题呢?

写回答

1回答

bobby

2018-12-07

为了试验这个问题 我刚才用我本地的环境测试了一下 //img.mukewang.com/szimg/5c09d4a30001a62a07760281.jpg 这是chromedriver试出来的效果 是没有问题的啊。 //img.mukewang.com/szimg/5c09d4c90001edcc08880025.jpg 这个是chrome的版本,其他版本我没有试过

0
6
bobby
回复
慕神6516775
因为你这里的情况是很难重现的, 所以我这里想要重现调试这个问题有点难度, https://stackoverflow.com/questions/33225947/can-a-website-detect-when-you-are-using-selenium-with-chromedriver 你可以看看这个问答 回复的比较详细
2018-12-14
共6条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程