对于知乎爬虫逻辑的问题

来源:6-19 保存数据到mysql中 -1

慕丝7238044

2020-03-04

老师您好,我差不多学习完了整个知乎的爬虫。对于验证码识别那一部分收获很多。
但是对于后面的知乎爬虫的逻辑,是不是只进行了知乎第一页问题列表的采集,没有问题列表页的翻页呢?
还是我落下了什么

写回答

1回答

bobby

2020-03-05

知乎的爬虫 只通过列表页肯定不行,要尽量多的抓取,可以采用深度抓取比如随便进入一个问题,右侧会有相关问题 ,通过这些相关问题继续深度抓取就能抓取很多的问题,如果遇到用户了 点击进入用户主页 也能抓到很多问题

0
2
bobby
回复
慕丝7238044
好的,在scrapy中只需要在该yield的地方yield request就行了
2020-03-05
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程