在省份流量统计中,只对key值进行count,不同的key值不会加到一起吗?

来源:6-12 省份浏览量统计之功能实现

慕工程7011617

2021-03-10

比如上海 1 北京1
是分别发到两个reduce上还是一个reduce中?
发到一个reduce中会不会变成上海 2 或者北京2
还是同一个reduce也会按照hash顺序来多次处理当成多个reduce用呀?

写回答

1回答

Michael_PK

2021-03-10

map处理完,比如上海1   北京1  会经过shuffle进行分发,相同的key是分发到同一个reduce中才能进行聚合操作。

不可能会变成上海2,因为相同的key会进入同一个reduce,再进行聚合的。上海和北京是两个不同的key

0
2
Michael_PK
回复
慕工程7011617
只有一个reduce的话,也没问题的,数据都在一个reduce里面 但是我们的自定义reducer类中的reduce方法是知道的,你可以观察下reduce方法,他的第一个参数就是key,第二个参数是一个可以迭代的,那么相同的key的数据都在一个可迭代的里面,所以是不会乱的
2021-03-11
共2条回复

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据

2397 学习 · 902 问题

查看课程