知乎爬取问题

来源:6-18 知乎spider爬虫逻辑的实现以及answer的提取 - 2

qq_Fluorescent_0

2017-10-14

为什么一开始显示的只有11个有关question的问题url,但是一旦run起来了 就有很多很多question的url,

然后我就下拉知乎首页 经过ajax请求后又会多出一些知乎的问题,但是抓不到ajax的包

所以就不明白程序是怎么样在一开始只有11question的url的情况下可以不断地爬取更多的url(但是最后大概爬取了50,60个就停止) 应该是不会停止的呀?

写回答

2回答

qq_Fluorescent_0

提问者

2017-10-17

谢谢老师这么耐心

0
0

bobby

2017-10-16

亲 后面我会讲如何通过浏览器去爬取 到时候你可以通过浏览器滚动条下拉的方式去获取更多的question 这个在后面的动态网页爬取章节中都会讲到的

0
3
bobby
回复
qq_Fluorescent_0
这个就是看爬虫中你的提取方法了 如果你在详情页中也提取其他question的话 就不止11个了
2017-10-17
共3条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程