如何进行分布式计算
来源:6-18 快速了解Spark SQL进行数据分析

王虎i
2021-12-13
前提: spark集群, 01(master), 02, 03
问题: 读取cvs文件做计算,大概400w条数据,执行三组命令, 他们的执行时间是一致的(相差很少),并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下:
写回答
1回答
-
Michael_PK
2021-12-14
这个问题是不是有个帖子回复过的?
spark.read.csv这个就是一个分布式的计算的,你那只是三个不同的spark运行模式而已。
第一个是local,直接使用本地资源,单线程的,因为你是local
第二个是onyarn,使用yarn的container中运行
第三个是spark standalone默认,是运行在worker上
你这数据量小没啥感受的,直观上感觉不出来的,你说的时间差不多,这个分布式计算没有直接关系
00
相似问题