知乎爬取answer

来源:8-4 通过downloadmiddleware随机更换user-agent-1

JaydenJune

2020-11-19

爬取知乎的回答数据的时候,爬取到1545条的数据,爬虫自动停止,并没有报任何错误,状态码200
但是我没有使用IP代理和随机的User_Agent.和这个有关系吗???
写回答

1回答

bobby

2020-11-20

数据数据出现了循环也有可能会造成这个结果, 可以分析一下看看每次页面提取出来以后将在redis中统计一次看看总共解析出来多少条记录

0
2
bobby
回复
JaydenJune
不是,数据循环是 a页面解析出来了b和c,页面,b页面解析出来了d页面,但是d页面只能解析出来a页面,就导致了没有新的数据,数据出现了循环
2020-11-22
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程