合并hdfs小文件

来源:14-3 压缩的使用场景

iceiceice_

2020-03-10

请教老师,hdfs上积累了两年的历史数据,每天一个文件夹不到64M,包含了3000多个小文件,都是parquet格式,现在影响了hdfs的性能,想把每天的小文件合并成一个大文件,有什么好的办法合并吗?

写回答

1回答

Michael_PK

2020-03-10

方案可行。不管是使用什么分布式框架,比如Mr或者spark。要做的事情就是把parquet文件读进来,然后以少的输出task个数写回去就行了

0
13
pain7
回复
Michael_PK
是这样的,我查询出来一堆数据,之后要通过消息中间件发出去。但是有时候数据量很小,我就 coa(1) 操作,合并到一个分区里面去了。明明查出来没有多少数据,结果还是内存爆掉了,我就觉得奇怪,但是用 repartition 的话,也是合并到一个分区,就没有问题。好奇怪
2021-06-12
共13条回复

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据

2397 学习 · 902 问题

查看课程