老师好~请问工业上有用到map output key都一样的场景吗?

来源:6-9 浏览量统计功能实现

慕少7351152

2022-05-10

看到视频里设置的Mapper output Key是统一的一个Text(“key”),我自己写的时候设置的是NullWritable,但是我理解是不是任何Partition的框架的实现类都会把一样的Key分到同一个Reducer上,这样听起来就很不“分布式”了,想问下工业上会有这样用的场景吗?

写回答

1回答

Michael_PK

2022-05-15

默认的partitioner是按照key的hashcode走,所以key相同,是在一个reducer上

但是有些业务不一定的,比如按照手机号的,那么就需要自定义partitioner才能完成。

分布式指的是作业可以在多个机器上并行运行

0
3
慕少7351152
回复
Michael_PK
哦哦这个意思,了解了,谢谢~
2022-05-17
共3条回复

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据

2397 学习 · 902 问题

查看课程