你好,老师, spark.sql.shuffle.partitions 设置 与 repartitions (字段) 根据字段分区 这两个有什么区别吗

来源:7-6 -操作Hive表数据

慕运维7479159

2018-04-07

你好,老师, spark.sql.shuffle.partitions 设置 与 repartitions (字段)  根据字段分区 这两个有什么区别吗

为什么在使用过程中,如果不修改 spark.sql.shuffle.partitions  通过字段进行分区,比如一个字段有300种类型,结果 分区还是 200,这个情况怎么解释

写回答

3回答

Michael_PK

2018-04-07

第一个是参数设置,第二个是在API设置的。第二个是根据指定字段重新shuffle

1
1
慕运维7479159
非常感谢!
2018-04-07
共1条回复

Michael_PK

2018-04-07

肯定影响性能,但是有些数据倾斜就需要这个来解决

1
0

慕运维7479159

提问者

2018-04-07

老师,这个根据字段重新分区,在实际生产中,使用的多吗?不会有不稳定的情况吧

0
0

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程