知乎首页爬取出来的链接很少

来源:6-14 item loder方式提取question - 1

ciphermagic

2017-07-31

re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)

首页爬取出来的问题链接,只有三个。而且把response.text写入html中打开查看,网页不断刷新。是因为知乎的反爬虫策略么,目前有没有解决方案?

写回答

2回答

bobby

2017-08-01

你需要截图 我看看 scrapy的log输入是什么

0
3
ciphermagic
非常感谢!
2017-08-02
共3条回复

ciphermagic

提问者

2017-08-01

//szimg.mukewang.com/5980138e00018f0114920686.jpg

这次爬到五个问题链接,但不应该这么少啊

0
2
慕仰8103579
不停刷新,我理解是你写入的html中的js不停执行导致的,这个确实存在,不过不影响我们取第一页连接。
2017-08-01
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程