关于 hdfs 合并小文件

来源:11-5 小文件解决方案(下)

KeithTt

2023-10-16

接触大数据不久,弱弱地问一下老师…

1、Hdfs 里面一部分是 flume 收集的日志,一部分是解析后存的 hive 数据,目前有 2.6 亿+ 小文件,如何有效分析哪个目录或者哪张表小文件的数量?

2、找到小文件多的目录或者表之后,如何有效地合并的文件?

写回答

1回答

Michael_PK

2023-10-16

1 flume采集的时候是可以通过几个滚动参数时间、大小、记录数进行控制下大小的当然这部分只是简单的控制下

2flume落地到HDFS的数据是原始数据一般都需要对这部分数据进行ETL操作的比如说然后落到Hive中此时就需要控制最终落地文件的大小了比如控制reduce的个数就可以控制大小

3具体多大叫小文件每个公司的叫法可能不同比如小于10M小于50M只要定义好了之后我们的做法是每天凌晨去合并前一天表中的小文件的可以用sql也可以用spark等分布式计算的框架都可以的。思路就是挑出小的进行合并完再移回去

0
0

Hadoop 系统入门+核心精讲

从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据

2397 学习 · 902 问题

查看课程