词频统计的reduce个数

来源:6-9 浏览量统计功能实现

Panda_io

2019-08-23

图片描述
老师我们这里没有自定义Partitioner,那么我们通过默认的return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks来定义分区数来将key相同的map转发到不同分区进行处理,按道理返回应该不止一个分区为啥输出的文件是一个呢,难道return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks这个默认计算出来的值都是一样的?我在JDK源码debug没有debug出来。

写回答

1回答

Michael_PK

2019-08-23

因为你数据量少,默认就是一个reduce

0
1
Panda_io
明白了,谢谢老师!
2019-08-24
共1条回复

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据

2397 学习 · 902 问题

查看课程