对于知乎爬虫逻辑的问题

来源：6-19 保存数据到mysql中 -1

慕丝7238044

2020-03-04

老师您好，我差不多学习完了整个知乎的爬虫。对于验证码识别那一部分收获很多。
但是对于后面的知乎爬虫的逻辑，是不是只进行了知乎第一页问题列表的采集，没有问题列表页的翻页呢？
还是我落下了什么

写回答

1回答

bobby

2020-03-05

已采纳

知乎的爬虫只通过列表页肯定不行，要尽量多的抓取，可以采用深度抓取比如随便进入一个问题，右侧会有相关问题，通过这些相关问题继续深度抓取就能抓取很多的问题，如果遇到用户了点击进入用户主页也能抓到很多问题

bobby

慕丝7238044

好的，在scrapy中只需要在该yield的地方yield request就行了

2020-03-05

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5825 学习 · 6292 问题

相似问题

回答 1

回答 1

回答 2

回答 1

回答 2