请教下在实际工作中,集群的配置

来源:13-1 为什么要掌握SQL的执行流程

Surperme

2019-09-26

课程中有讲到,如果任务提交到yarn上,那么不需要每台机器都装spark,如果每台机器都装spark,以后配置和升级都很麻烦。

那么请问,是不是只需要部分机器,或者只有一台机器装spark就可以了,hadoop呢?只装在spark那台机器上就行了吗?

还是说只有一台机器装spark,其他都装hadoop,需要hadoop中的hdfs存数据?

我问了好多人,各有各的说法,不过大部分人都说所有机器都需要装spark和hadoop。

例如我现在有10台机器,每台机器配置是4核8G,硬盘256G,需要处理GB级数据,需要怎么配置spak和hadoop软件呢?


写回答

1回答

Michael_PK

2019-09-26

hadoop是集群的,如果spark是跑yarn的,你想在哪几个机器上提交就只需要这几个机器装spark就行(当然这几个机器要访问的到yarn)。记住这个说法就行,不是这个说法就是错的

1
0

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程