关于淘宝网

来源:8-8 scrapy实现ip代理池 - 3

墨语迟

2020-11-27

图片描述
图片描述

老师,请问我想调取淘宝网详情页评论的标签的接口直接获取数据,但是为什么我在未登录而且清理了浏览器缓存的情况下输入https://rate.tmall.com/listTagClouds.htm?itemId=627037643930&isAll=true这个URL,浏览器可以直接访问,然后我用python的request调用,得到的是请登录的页面,然后我加了headers的user-agent还是不行,我对照了一下,原来浏览器自动给我请求加了个cookie,但是我多调用了几次好像直接就被后台识别了,返回的是登录页面的参数。请问这个是什么原理呢?为什么我清空缓存而且没有账号登录,用浏览器访问他API的时候回自带一个cookie,而且淘宝后台还能识别这个cookie?

写回答

2回答

墨语迟

提问者

2020-11-27

这好像是第一次请求的时候,后台给了一个302的重定向,然后才给的cookie。那如果这种情况要怎么才能爬取这个接口的信息呢?淘宝后台用这种方法,应该是给每个用爬虫的人一个身份cookie,这样不管你用多少个代理ip但是cookie没变,这种情况怎么应对呢?

0
0

墨语迟

提问者

2020-11-27

我试了一下其它网站,未登录情况请求头也带来cookie的,你课上不是说应该是先请求,然后后台为了识别身份才加的cookie吗?那这样在第一次请求的时候应该是不带cookie的呀?如果这样,能不能不用浏览器而直接用requests来模拟请求并且获得这个cookie呢?

0
3
bobby
回复
墨语迟
每个网站的机制不一样,不是说百度可以访问 淘宝就必须也能访问
2020-11-30
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程