老师好~请问工业上有用到map output key都一样的场景吗?
来源:6-9 浏览量统计功能实现
慕少7351152
2022-05-10
看到视频里设置的Mapper output Key是统一的一个Text(“key”),我自己写的时候设置的是NullWritable,但是我理解是不是任何Partition的框架的实现类都会把一样的Key分到同一个Reducer上,这样听起来就很不“分布式”了,想问下工业上会有这样用的场景吗?
写回答
1回答
-
Michael_PK
2022-05-15
默认的partitioner是按照key的hashcode走,所以key相同,是在一个reducer上
但是有些业务不一定的,比如按照手机号的,那么就需要自定义partitioner才能完成。
分布式指的是作业可以在多个机器上并行运行
032022-05-17
相似问题