知乎question页面爬取
来源:6-15 item loder方式提取question - 2
燕燕于飞
2018-02-12
遇到几个小问题
1、有时爬虫无法进入问题解析函数就自己停止了,原因好像是将知乎首页https的链接写成了http,导致一会儿爬虫自己找到了https的链接,一会儿找不到。
2、有时question_item会有好几个值取不到,找了相关链接,一切代码都正常。还没找到原因。
写回答
1回答
-
bobby
2018-02-19
scrapy处理https是没有问题的 你可以看一下pycharm的console是不是某些页面的状态码不是200?
question_item有可能是因为知乎的接口数据格式变了, 你根据你能提取到的值继续课程就行了
00
相似问题