关于淘宝网
来源:8-8 scrapy实现ip代理池 - 3
墨语迟
2020-11-27
老师,请问我想调取淘宝网详情页评论的标签的接口直接获取数据,但是为什么我在未登录而且清理了浏览器缓存的情况下输入https://rate.tmall.com/listTagClouds.htm?itemId=627037643930&isAll=true这个URL,浏览器可以直接访问,然后我用python的request调用,得到的是请登录的页面,然后我加了headers的user-agent还是不行,我对照了一下,原来浏览器自动给我请求加了个cookie,但是我多调用了几次好像直接就被后台识别了,返回的是登录页面的参数。请问这个是什么原理呢?为什么我清空缓存而且没有账号登录,用浏览器访问他API的时候回自带一个cookie,而且淘宝后台还能识别这个cookie?
写回答
2回答
-
墨语迟
提问者
2020-11-27
这好像是第一次请求的时候,后台给了一个302的重定向,然后才给的cookie。那如果这种情况要怎么才能爬取这个接口的信息呢?淘宝后台用这种方法,应该是给每个用爬虫的人一个身份cookie,这样不管你用多少个代理ip但是cookie没变,这种情况怎么应对呢?
00 -
墨语迟
提问者
2020-11-27
我试了一下其它网站,未登录情况请求头也带来cookie的,你课上不是说应该是先请求,然后后台为了识别身份才加的cookie吗?那这样在第一次请求的时候应该是不带cookie的呀?如果这样,能不能不用浏览器而直接用requests来模拟请求并且获得这个cookie呢?
032020-11-30
相似问题