关于在生产环境中一定要注意设置spark.sql.shuffle.partitions设置调整分区数量的问题咨询,谢谢
来源:7-6 -操作Hive表数据
慕神816625
2018-06-06
在生产环境中一定要注意设置spark.sql.shuffle.partitions,默认值是200,
可以通过spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")进行设置,在生产上是根据什么原则或规则,来设置分区的数呢,是根据服务器节点的书面,还是整个的数据量,还是根据总共多少记录,还是根据其他的规则呢
写回答
2回答
-
这个大小是要根据你的数据量来设置的,慢了就大点
022018-06-06 -
慕神816625
提问者
2018-06-06
spark中的spark.sql.shuffle.partitions,是不是相当于MySQL中对数据库进行了分区了呢,还是也是前提要求MySQL弄好了分库分表策略了呢
00
相似问题