scrapy shell添加了useragent参数 返回状态码是200 但是页面显示404

来源:6-12 知乎分析以及数据表设计1

橘子煲汤

2020-02-10

scrapy shell在添加了useragent后 虽然返回的response状态码是200 但是view(response)打开返回的response发现返回的页面写着404
我使用的语句:

scrapy shell  -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36" https://www.zhihu.com/question/339753020

图片描述

写回答

2回答

bobby

2020-02-12

我拷贝了你上面的代码 看到的是这样的? //img.mukewang.com/szimg/5e43d713098b42c315860627.jpg 你要在cmd中运行,不要保存到html中然后去查看html文件

0
2
bobby
回复
橘子煲汤
知乎了反爬,在里面加入了js逻辑 就是防止你保存下来html分析
2020-02-15
共2条回复

bobby

2020-02-11

这个页面内容是404  不一定代表http状态码一定要是404, 也就是说我也可以开发一个页面是这个内容,但是状态码是200, 你可以通过网络请求看看这个页面的状态码是多少

0
1
橘子煲汤
但是老师 这个页面他是有内容的呀 并不是开发的页面显示的就是这个内容 https://www.zhihu.com/question/339753020 这个页面打开是一个正常的有内容的问答页 但是爬取后调用view(response)的就变成了404
2020-02-12
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程