内容管理平台数据抓取,深度优先模式抓取问题
来源:3-5 深度优先和广度优先原理
qq_多爱一下_03725241
2018-04-08
老师我想爬一个公司内部的内容管理系统,内容管理系统URL格式是这样的:http://10.156.0.129/hbcmp/documentList.action?folderId={0}&folderNamePath={1}&pageSize={2}¤tPageNo={3}&keyword={4}
其数据结构是树型带有子节点,我用到递归遍历,我的思路就是先模拟登陆,登陆之后就调用内容管理的url地址,得到是一个json数据,然后我解析json数据,获取到json数据之后在修改url地址里面的参数然后在进行爬,也就是想深度优先,可是不知道哪里出了问题,数据一直爬不全,每次运行一次数据会增加一点,我入库的时候也查询了数据,相同的不进行入库。请老师帮我看看,谢谢!
写回答
3回答
-
bobby
2018-04-09
你这里说到的数据爬不全是什么意思?是一段时间后会停止掉? 然后数据并没有抓取完爬虫就停止了, 深度优先不代表一定能抓取所有数据,因为一个循环到后期有可能陷入一个环路中,到这个时候你是有可能还没有抓取到所有数据的时候 你的深度已经递归完成了 这种时候你需要找一些其他的入口点才行
032018-04-10 -
qq_多爱一下_03725241
提问者
2018-04-08
这里的type如果是folder表示有子节点,数据格式就这样。
00 -
bobby
2018-04-08
你这里我访问有点问题 不能访问,是不是因为是内网的问题? 或者你上传一个数据我能能够参考一下
00
相似问题