如何进行分布式计算

首页课程实战体系课手记专栏慕课教程

如何进行分布式计算

来源：6-18 快速了解Spark SQL进行数据分析

王虎i

2021-12-13

前提： spark集群， 01（master）， 02， 03
问题：读取cvs文件做计算，大概400w条数据，执行三组命令，他们的执行时间是一致的（相差很少），并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下：
图片描述

写回答

1回答

Michael_PK

Michael_PK

2021-12-14

这个问题是不是有个帖子回复过的？

spark.read.csv这个就是一个分布式的计算的，你那只是三个不同的spark运行模式而已。

第一个是local，直接使用本地资源，单线程的，因为你是local

第二个是onyarn，使用yarn的container中运行

第三个是spark standalone默认，是运行在worker上

你这数据量小没啥感受的，直观上感觉不出来的，你说的时间差不多，这个分布式计算没有直接关系

0

0

Spark3实时处理-Streaming+StructuredStreaming实战

实战Spark3实时处理，掌握两套企业级处理方案

340 学习 · 238 问题

相似问题

有一个问题我有些想不明白，sparkSQL和直接将数据转化成传统的map，List等集合再进行数据统计优势在哪里？

回答 1

流处理如何按某个用户某个小时聚合再入库

回答 1

如何使用sss同时满足ss和sss的需求

回答 1

sss 编程模型

回答 1

在limux环境lib目录下找不到log-generator.jar包

回答 1

打开慕课网App查看更多内容