关于在生产环境中一定要注意设置spark.sql.shuffle.partitions设置调整分区数量的问题咨询，谢谢

来源：7-6 -操作Hive表数据

慕神816625

2018-06-06

在生产环境中一定要注意设置spark.sql.shuffle.partitions，默认值是200，

可以通过spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")进行设置，在生产上是根据什么原则或规则，来设置分区的数呢，是根据服务器节点的书面，还是整个的数据量，还是根据总共多少记录，还是根据其他的规则呢

写回答

2回答

Michael_PK

2018-06-06

已采纳

这个大小是要根据你的数据量来设置的，慢了就大点

慕神816625

非常感谢！

2018-06-06

共2条回复

慕神816625

提问者

2018-06-06

spark中的spark.sql.shuffle.partitions，是不是相当于MySQL中对数据库进行了分区了呢，还是也是前提要求MySQL弄好了分库分表策略了呢

以慕课网日志分析为例进入大数据Spark SQL的世界

快速转型大数据：Hadoop，Hive，SparkSQL步步为赢

1644 学习 · 1129 问题

相似问题

回答 3

回答 2

回答 1

回答 1

回答 1