scrapy shell添加了useragent参数返回状态码是200 但是页面显示404

来源：6-12 知乎分析以及数据表设计1

橘子煲汤

2020-02-10

scrapy shell在添加了useragent后虽然返回的response状态码是200 但是view(response)打开返回的response发现返回的页面写着404
我使用的语句：

scrapy shell  -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36" https://www.zhihu.com/question/339753020

图片描述

写回答

2回答

bobby

2020-02-12

已采纳

我拷贝了你上面的代码看到的是这样的？ //img.mukewang.com/szimg/5e43d713098b42c315860627.jpg 你要在cmd中运行，不要保存到html中然后去查看html文件

bobby

橘子煲汤

知乎了反爬，在里面加入了js逻辑就是防止你保存下来html分析

2020-02-15

共2条回复

bobby

2020-02-11

这个页面内容是404 不一定代表http状态码一定要是404，也就是说我也可以开发一个页面是这个内容，但是状态码是200，你可以通过网络请求看看这个页面的状态码是多少

橘子煲汤

但是老师这个页面他是有内容的呀并不是开发的页面显示的就是这个内容 https://www.zhihu.com/question/339753020 这个页面打开是一个正常的有内容的问答页但是爬取后调用view（response)的就变成了404

2020-02-12

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

查看课程

相似问题

在终端中 scrapy shell 如何避开302重定向呢？

回答 1

crawlspider 分布式是先爬网页再解析网页吗

回答 2

我的爬虫只能爬少量信息

回答 1

为什么我的调试总是进不去这个函数，回调函数里也设置断点了

回答 1

在使用scrapy shell调试爬取伯乐在线代码的时候 response.css(...)出不来东西

回答 1

打开慕课网App查看更多内容