内容管理平台数据抓取，深度优先模式抓取问题

首页课程实战体系课手记专栏慕课教程

内容管理平台数据抓取，深度优先模式抓取问题

来源：3-5 深度优先和广度优先原理

qq_多爱一下_03725241

2018-04-08

老师我想爬一个公司内部的内容管理系统，内容管理系统URL格式是这样的：http://10.156.0.129/hbcmp/documentList.action?folderId={0}&folderNamePath={1}&pageSize={2}&currentPageNo={3}&keyword={4}

其数据结构是树型带有子节点，我用到递归遍历，我的思路就是先模拟登陆，登陆之后就调用内容管理的url地址，得到是一个json数据，然后我解析json数据，获取到json数据之后在修改url地址里面的参数然后在进行爬，也就是想深度优先，可是不知道哪里出了问题，数据一直爬不全，每次运行一次数据会增加一点，我入库的时候也查询了数据，相同的不进行入库。请老师帮我看看，谢谢！

写回答

3回答

bobby

bobby

2018-04-09

你这里说到的数据爬不全是什么意思？是一段时间后会停止掉？然后数据并没有抓取完爬虫就停止了，深度优先不代表一定能抓取所有数据，因为一个循环到后期有可能陷入一个环路中，到这个时候你是有可能还没有抓取到所有数据的时候你的深度已经递归完成了这种时候你需要找一些其他的入口点才行

0

3

qq_多爱一下_03725241

回复

bobby

我感觉是我爬一次的时候，可能根本没有获取到另外的url地址导致没有数据，而且url地址是动态生成的，必须依据上一个节点的主键去查询子节点的数据，就这样一直循环。到了type不为folder才结束，然后在进行数据抓取。

2018-04-10

共3条回复

qq_多爱一下_03725241

qq_多爱一下_03725241

提问者

2018-04-08

//img.mukewang.com/szimg/5ac9c7d900019e6f32820642.jpg

//img.mukewang.com/szimg/5ac9c7ef00019e6f32820642.jpg

//img.mukewang.com/szimg/5ac9c7f30001aa9033561422.jpg

这里的type如果是folder表示有子节点，数据格式就这样。

0

0

bobby

bobby

2018-04-08

你这里我访问有点问题不能访问，是不是因为是内网的问题？或者你上传一个数据我能能够参考一下

0

0

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

无法抓取的一个内容

回答 1

老师比如我想动态获取美团美食的数据动态抓取到网页之后还怎么处理呢

回答 1

抓取这种招聘网站会有风险吗？

回答 1

3000不同网址抓取数据

回答 1

深度优先，广度优先，CrawlSpider,非完全pagerank策略

回答 1

打开慕课网App查看更多内容