京东评价页获取不到的问题

来源:9-5 通过requests完成京东详情页数据的获取

有料

2020-02-06

可能是京东更新了反爬策略 现在直接访问comment_url获取不到信息了 只能在浏览器里面看见老师这边看看要用什么反爬策略啊https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv18370&productId=100000287117&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

写回答

2回答

bobby

2020-02-07

import requests

headers = {
    "Host": "club.jd.com",
    "Referer": "https://item.jd.com/100000287117.html",
}
rsp = requests.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv18370&productId=100000287117&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1",
                   headers=headers)
print(rsp.text)
你可以看到这里京东做了Referer这个header的检查,不过这个url很好拼凑,记住这个url中的id就是产品的id,你自己拼凑一下就行了

0
1
有料
老师能不能说下这边是怎么知道header检查的 给个思路 光知道这个没什么大用啊
2020-02-07
共1条回复

bobby

2020-02-07

你这样问问题就比较好了,这个思路在课程中我会讲解,首先你只要知道http是无状态协议就会知道所有的一切都是靠ip地址和headers来识别客户端,所以你要知道能正确获取到数据的headers是什么?

  1. //img.mukewang.com/szimg/5e3cf82c0953386019390803.jpg 打开这个就可以复制这个所有的headers了,然后拿去用requests测试

  2. 这种时候肯定能有结果,然后你一个个删除测试,就知道哪些headers是最重要的了

1
1
有料
感谢!
2020-02-07
共1条回复

Python爬虫工程师实战 大数据时代必备

慕课网严选精品教程,高质量内容+服务!

2377 学习 · 1158 问题

查看课程