如何进行分布式计算

来源:6-18 快速了解Spark SQL进行数据分析

王虎i

2021-12-13

前提: spark集群, 01(master), 02, 03
问题: 读取cvs文件做计算,大概400w条数据,执行三组命令, 他们的执行时间是一致的(相差很少),并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下:
图片描述

写回答

1回答

Michael_PK

2021-12-14

这个问题是不是有个帖子回复过的?


spark.read.csv这个就是一个分布式的计算的,你那只是三个不同的spark运行模式而已。

第一个是local,直接使用本地资源,单线程的,因为你是local

第二个是onyarn,使用yarn的container中运行

第三个是spark standalone默认,是运行在worker上

你这数据量小没啥感受的,直观上感觉不出来的,你说的时间差不多,这个分布式计算没有直接关系

0
0

Spark3实时处理-Streaming+StructuredStreaming实战

实战Spark3实时处理,掌握两套企业级处理方案

340 学习 · 238 问题

查看课程