老师爬完所有数据只有12w多条吗?珍爱网数据这么少?
来源:18-2 分布式爬虫架构

edenli
2018-04-11
写回答
1回答
-
ccmouse
2018-04-12
当然远远不止。我们研究过从首页这样进来数据重复率非常高,可能要覆盖大量的用户会花很长的时间。我们可以采用用户id自增的技巧,不断把当前用户id+1来获得新的用户,并且作为新的种子。这样应该会在用户量上有显著提升。
022018-04-15
相似问题
老师爬完所有数据只有12w多条吗?珍爱网数据这么少?
来源:18-2 分布式爬虫架构
edenli
2018-04-11
1回答
ccmouse
2018-04-12
当然远远不止。我们研究过从首页这样进来数据重复率非常高,可能要覆盖大量的用户会花很长的时间。我们可以采用用户id自增的技巧,不断把当前用户id+1来获得新的用户,并且作为新的种子。这样应该会在用户量上有显著提升。
相似问题