HDFS如何应对对大量小文件这种情况?

来源:1-15 -HDFS优缺点

bearsmall

2018-09-08

HDFS架构中,一个文件会被拆分成多个Block,而blocksize比如30M,那每个文件至少占用30M的存储空间,这对大文件存储(比如几百M,几G这种级别)看不出影响,但是如果存储的是哪种非常小的文件呢?(几十、几百K哪种),但是量确特别大(比如github上大部分都是源代码、文本格式的小文件)。这种场景HDFS如何兼顾呢?

写回答

1回答

Michael_PK

2018-09-08

进行一次合并就行了,HDFS处理不怕大文件,而是怕存储大量小问题,不用的文件就删,要用到就合

0
3
Michael_PK
回复
bearsmall
大了就采用压缩呢,都是自动split的
2018-09-08
共3条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程