为什么distinct后是一个,哪里做了去重操作呢?

来源:4-52 场景题之distinct功能实现及测试

过客12

2022-10-17

老师你好,distinct这里没太看懂,比如第一行按照逗号分隔,循环写了三个key进context吗,key相同,所以进入了同一个reduce,但是reduce也没有做去重,直接把key写入了context,这里应该也是有三个写入了文件呀?

写回答

1回答

Michael_PK

2022-10-31

相同的key进入同一个reduce,对于去重来说, 我们只关注key就行了,相同的value都在一起,根本不用关注value了。其实默认mapreduce的shuffle过程对于key来说,只要拿key,就已经去重了

0
0

轻松入门大数据 一站式完成核心能力构建

大数据入门第一课,一站式完成核心能力构建

174 学习 · 59 问题

查看课程