内容管理平台数据抓取,深度优先模式抓取问题

来源:3-5 深度优先和广度优先原理

qq_多爱一下_03725241

2018-04-08

http://img.mukewang.com/szimg/5ac9b3c500011e3716001120.jpg

老师我想爬一个公司内部的内容管理系统,内容管理系统URL格式是这样的:http://10.156.0.129/hbcmp/documentList.action?folderId={0}&folderNamePath={1}&pageSize={2}&currentPageNo={3}&keyword={4}

其数据结构是树型带有子节点,我用到递归遍历,我的思路就是先模拟登陆,登陆之后就调用内容管理的url地址,得到是一个json数据,然后我解析json数据,获取到json数据之后在修改url地址里面的参数然后在进行爬,也就是想深度优先,可是不知道哪里出了问题,数据一直爬不全,每次运行一次数据会增加一点,我入库的时候也查询了数据,相同的不进行入库。请老师帮我看看,谢谢!

写回答

3回答

bobby

2018-04-09

你这里说到的数据爬不全是什么意思?是一段时间后会停止掉? 然后数据并没有抓取完爬虫就停止了, 深度优先不代表一定能抓取所有数据,因为一个循环到后期有可能陷入一个环路中,到这个时候你是有可能还没有抓取到所有数据的时候 你的深度已经递归完成了 这种时候你需要找一些其他的入口点才行

0
3
qq_多爱一下_03725241
回复
bobby
我感觉是我爬一次的时候,可能根本没有获取到另外的url地址导致没有数据,而且url地址是动态生成的,必须依据上一个节点的主键去查询子节点的数据,就这样一直循环。到了type不为folder才结束,然后在进行数据抓取。
2018-04-10
共3条回复

qq_多爱一下_03725241

提问者

2018-04-08

//img.mukewang.com/szimg/5ac9c7d900019e6f32820642.jpg

//img.mukewang.com/szimg/5ac9c7ef00019e6f32820642.jpg

//img.mukewang.com/szimg/5ac9c7f30001aa9033561422.jpg

这里的type如果是folder表示有子节点,数据格式就这样。

0
0

bobby

2018-04-08

你这里我访问有点问题 不能访问,是不是因为是内网的问题? 或者你上传一个数据我能能够参考一下

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程