知乎question页面爬取

来源:6-15 item loder方式提取question - 2

燕燕于飞

2018-02-12

遇到几个小问题

1、有时爬虫无法进入问题解析函数就自己停止了,原因好像是将知乎首页https的链接写成了http,导致一会儿爬虫自己找到了https的链接,一会儿找不到。

2、有时question_item会有好几个值取不到,找了相关链接,一切代码都正常。还没找到原因。

写回答

1回答

bobby

2018-02-19

  1. scrapy处理https是没有问题的 你可以看一下pycharm的console是不是某些页面的状态码不是200?

  2. question_item有可能是因为知乎的接口数据格式变了, 你根据你能提取到的值继续课程就行了

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程