spark离线处理读取source数据

来源:2-13 使用IDEA和Maven开发第一个Spark应用程序

qq_紫蝶侠_0

2021-06-18

老师,spark 离线处理读取hdfs中的数据,是一次读取完任务所有需要的数据,再后续map reduce操作吗

写回答

1回答

Michael_PK

2021-06-18

spark的算子是组成算子链,遇到action时才会真正开始从数据源开始加载数据


0
2
Michael_PK
回复
qq_紫蝶侠_0
遇到action,内部会进行dag的拆分,遇到shuffle类型的算子就会产生新的stage。 从第一个stage开始计算,每个task从原来拉取对应的数据。一次拉取,比如说hdfs文件是支持分片的,那就会根据分片信息对应task开始执行。每个spark作业提交时肯定是根据对应的计算复杂度以及要处理的数据量来综合考虑的
2021-07-01
共2条回复

SparkSQL入门 整合Kudu实现广告业务数据分析

大数据工程师干货课程 带你从入门到实战掌握SparkSQL

535 学习 · 192 问题

查看课程