老师请教一下关于集群机器数量和处理速度方面的问题

来源:10-9 -外部数据源

慕粉1426268445

2017-10-02

老师,请问一下,您实际工作中的生产环境是使用了多少台机器组建spark集群,线上生产环境处理1T的数据大概是用多长时间能处理完,另外对于集群和处理速度上有没有一个计算比率或参考,比如 多少台机器处理多少G的数据能控制在多少秒或是多少分钟,能否给出一个你们生产环境中的参考数据或经验值。

写回答

1回答

Michael_PK

2017-10-02

我们的spark都是跑在yarn上,所以并没有什么所谓的spark集群,其实就是spark作为一个客户端提交到yarn上执行。你说的这个处理1T的数据要多少时间,这个是没有准确说法的,因为不知道你要基于这些数据做什么分析,比如你是计算count呢还是要进行复杂的计算,这个差别是非常大的

0
3
慕粉1426268445
回复
Michael_PK
噢,好的
2017-10-05
共3条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程