知乎爬取问题

来源：6-18 知乎spider爬虫逻辑的实现以及answer的提取 - 2

qq_Fluorescent_0

2017-10-14

为什么一开始显示的只有11个有关question的问题url，但是一旦run起来了就有很多很多question的url,

然后我就下拉知乎首页经过ajax请求后又会多出一些知乎的问题，但是抓不到ajax的包

所以就不明白程序是怎么样在一开始只有11question的url的情况下可以不断地爬取更多的url(但是最后大概爬取了50，60个就停止）应该是不会停止的呀？

写回答

2回答

qq_Fluorescent_0

提问者

2017-10-17

谢谢老师这么耐心

bobby

2017-10-16

亲后面我会讲如何通过浏览器去爬取到时候你可以通过浏览器滚动条下拉的方式去获取更多的question 这个在后面的动态网页爬取章节中都会讲到的

bobby

qq_Fluorescent_0

这个就是看爬虫中你的提取方法了如果你在详情页中也提取其他question的话就不止11个了

2017-10-17

共3条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 2

回答 2

回答 1

回答 1

回答 2