词频统计的reduce个数

首页课程实战体系课手记专栏慕课教程

词频统计的reduce个数

来源：6-9 浏览量统计功能实现

Panda_io

2019-08-23

图片描述
老师我们这里没有自定义Partitioner，那么我们通过默认的return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks来定义分区数来将key相同的map转发到不同分区进行处理，按道理返回应该不止一个分区为啥输出的文件是一个呢，难道return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks这个默认计算出来的值都是一样的？我在JDK源码debug没有debug出来。

写回答

1回答

Michael_PK

Michael_PK

2019-08-23

已采纳

因为你数据量少，默认就是一个reduce

0

1

Panda_io

明白了，谢谢老师！

2019-08-24

共1条回复

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手，掌握数据处理中ETL应用，轻松进军大数据

2424 学习 · 909 问题

相似问题

关于词频统计重构的代码运行结果问题

回答 1

在省份流量统计中，只对key值进行count，不同的key值不会加到一起吗？

回答 1

NumReduceTasks的个数问题

回答 1

partion数量的问题

回答 1

请问老师一个作业的情况下是不是这一个reduce，多个map？

回答 1

打开慕课网App查看更多内容