请教下在实际工作中,集群的配置
来源:13-1 为什么要掌握SQL的执行流程
Surperme
2019-09-26
课程中有讲到,如果任务提交到yarn上,那么不需要每台机器都装spark,如果每台机器都装spark,以后配置和升级都很麻烦。
那么请问,是不是只需要部分机器,或者只有一台机器装spark就可以了,hadoop呢?只装在spark那台机器上就行了吗?
还是说只有一台机器装spark,其他都装hadoop,需要hadoop中的hdfs存数据?
我问了好多人,各有各的说法,不过大部分人都说所有机器都需要装spark和hadoop。
例如我现在有10台机器,每台机器配置是4核8G,硬盘256G,需要处理GB级数据,需要怎么配置spak和hadoop软件呢?
写回答
1回答
-
hadoop是集群的,如果spark是跑yarn的,你想在哪几个机器上提交就只需要这几个机器装spark就行(当然这几个机器要访问的到yarn)。记住这个说法就行,不是这个说法就是错的
10
相似问题