flume保存日志到hdfs

来源:9-3 -离线数据处理架构

starkpan

2019-01-14

老师,您讲课时说,生产上可能5分钟产生几个G的日志文件。这些文件被flume直接保存到hdfs,这样会不会导致hafs中的数据太大,或者说,占用硬盘过大。
还是目前大数据公司还是不怎么在乎这几块硬盘的成本的?

写回答

1回答

Michael_PK

2019-01-14

我们一个五分钟的数据都达到300G,HDFS还是三副本也就是900G一个五分钟,要处理大数据,肯定得保证有足够的HDFS存储空间才可以,不然就谈不上大数据的存储和计算了

0
3
starkpan
回复
Michael_PK
谢谢老师o(^o^)o
2019-01-14
共3条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程