为什么distinct后是一个,哪里做了去重操作呢?
来源:4-52 场景题之distinct功能实现及测试

过客12
2022-10-17
老师你好,distinct这里没太看懂,比如第一行按照逗号分隔,循环写了三个key进context吗,key相同,所以进入了同一个reduce,但是reduce也没有做去重,直接把key写入了context,这里应该也是有三个写入了文件呀?
写回答
1回答
-
Michael_PK
2022-10-31
相同的key进入同一个reduce,对于去重来说, 我们只关注key就行了,相同的value都在一起,根本不用关注value了。其实默认mapreduce的shuffle过程对于key来说,只要拿key,就已经去重了
00
相似问题
关于metastor的功能
回答 1
配置完Spark队列没生效
回答 1