合并hdfs小文件
来源:14-3 压缩的使用场景
iceiceice_
2020-03-10
请教老师,hdfs上积累了两年的历史数据,每天一个文件夹不到64M,包含了3000多个小文件,都是parquet格式,现在影响了hdfs的性能,想把每天的小文件合并成一个大文件,有什么好的办法合并吗?
写回答
1回答
-
Michael_PK
2020-03-10
方案可行。不管是使用什么分布式框架,比如Mr或者spark。要做的事情就是把parquet文件读进来,然后以少的输出task个数写回去就行了
0132021-06-12
相似问题