知乎首页爬取出来的链接很少

来源：6-14 item loder方式提取question - 1

ciphermagic

2017-07-31

re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)

首页爬取出来的问题链接，只有三个。而且把response.text写入html中打开查看，网页不断刷新。是因为知乎的反爬虫策略么，目前有没有解决方案？

写回答

2回答

bobby

2017-08-01

已采纳

你需要截图我看看 scrapy的log输入是什么

ciphermagic

非常感谢！

2017-08-02

共3条回复

ciphermagic

提问者

2017-08-01

//szimg.mukewang.com/5980138e00018f0114920686.jpg

这次爬到五个问题链接，但不应该这么少啊

慕仰8103579

不停刷新，我理解是你写入的html中的js不停执行导致的，这个确实存在，不过不影响我们取第一页连接。

2017-08-01

共2条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 1

回答 1

回答 2

回答 2

回答 2