关于淘宝网

首页课程实战体系课手记专栏慕课教程

关于淘宝网

来源：8-8 scrapy实现ip代理池 - 3

墨语迟

2020-11-27

图片描述

老师，请问我想调取淘宝网详情页评论的标签的接口直接获取数据，但是为什么我在未登录而且清理了浏览器缓存的情况下输入https://rate.tmall.com/listTagClouds.htm?itemId=627037643930&isAll=true这个URL，浏览器可以直接访问，然后我用python的request调用，得到的是请登录的页面，然后我加了headers的user-agent还是不行，我对照了一下，原来浏览器自动给我请求加了个cookie，但是我多调用了几次好像直接就被后台识别了，返回的是登录页面的参数。请问这个是什么原理呢？为什么我清空缓存而且没有账号登录，用浏览器访问他API的时候回自带一个cookie，而且淘宝后台还能识别这个cookie？

写回答

2回答

墨语迟

墨语迟

提问者

2020-11-27

这好像是第一次请求的时候，后台给了一个302的重定向，然后才给的cookie。那如果这种情况要怎么才能爬取这个接口的信息呢？淘宝后台用这种方法，应该是给每个用爬虫的人一个身份cookie，这样不管你用多少个代理ip但是cookie没变，这种情况怎么应对呢？

0

0

墨语迟

墨语迟

提问者

2020-11-27

我试了一下其它网站，未登录情况请求头也带来cookie的，你课上不是说应该是先请求，然后后台为了识别身份才加的cookie吗？那这样在第一次请求的时候应该是不带cookie的呀？如果这样，能不能不用浏览器而直接用requests来模拟请求并且获得这个cookie呢？

0

3

bobby

回复

墨语迟

每个网站的机制不一样，不是说百度可以访问淘宝就必须也能访问

2020-11-30

共3条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

我感觉淘宝用了黑科技现在用chrome的方法好像也没有办法爬取价格

回答 3

想问某宝的几个问题

回答 1

写了代理ip中间件，但是访问爬取网站时还是本地ip。

回答 1

关于连接redis

回答 1

chrome打开淘宝还是加载了图片

回答 1

打开慕课网App查看更多内容