数据缓存是本机缓存还是多台机器分布存储的???

来源:6-9 -Spark缓存策略选择依据

伽倪墨得斯

2019-12-26

1,首先数据缓存是存储的RDD,RDD如果不是很大那么应该就存储在某一个节点(dirver节点?还是)
2,如果RDD特别大超过一个节点的内存,那么数据是怎么存储的?
3,RDD缓存是可以切分的存储在多台节点的内存中么?

写回答

1回答

Michael_PK

2019-12-26

你看那个官网的架构图,cache是存放在executor中的呢,图示很清楚。cache是按partition的,rdd是多个partition构成

0
0

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程