关于在生产环境中一定要注意设置spark.sql.shuffle.partitions设置调整分区数量的问题咨询,谢谢

来源:7-6 -操作Hive表数据

慕神816625

2018-06-06

在生产环境中一定要注意设置spark.sql.shuffle.partitions,默认值是200,

可以通过spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")进行设置,在生产上是根据什么原则或规则,来设置分区的数呢,是根据服务器节点的书面,还是整个的数据量,还是根据总共多少记录,还是根据其他的规则呢


写回答

2回答

Michael_PK

2018-06-06

这个大小是要根据你的数据量来设置的,慢了就大点

0
2
慕神816625
非常感谢!
2018-06-06
共2条回复

慕神816625

提问者

2018-06-06

spark中的spark.sql.shuffle.partitions,是不是相当于MySQL中对数据库进行了分区了呢,还是也是前提要求MySQL弄好了分库分表策略了呢

0
0

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程