老师请教一下关于集群机器数量和处理速度方面的问题
来源:10-9 -外部数据源
慕粉1426268445
2017-10-02
老师,请问一下,您实际工作中的生产环境是使用了多少台机器组建spark集群,线上生产环境处理1T的数据大概是用多长时间能处理完,另外对于集群和处理速度上有没有一个计算比率或参考,比如 多少台机器处理多少G的数据能控制在多少秒或是多少分钟,能否给出一个你们生产环境中的参考数据或经验值。
写回答
1回答
-
Michael_PK
2017-10-02
我们的spark都是跑在yarn上,所以并没有什么所谓的spark集群,其实就是spark作为一个客户端提交到yarn上执行。你说的这个处理1T的数据要多少时间,这个是没有准确说法的,因为不知道你要基于这些数据做什么分析,比如你是计算count呢还是要进行复杂的计算,这个差别是非常大的
032017-10-05
相似问题