追加写到HDFS时,会才产生许多小文件,能不能写在一个文件

来源:10-6 -SaveMode

慕粉3334211

2018-09-02

大哥,您好!result.write.format("text")  .mode("append").partitionBy("d")                      .save("hdfs://192.168.199.150:8020/user/hive/warehouse/hive.db/test")。当我采用追加写到HDFS时,会才产生许多小文件,特别是在做流数据项目的时候,能不能写在一个文件?谢谢!

写回答

1回答

Michael_PK

2018-09-02

你可以后续再合并。当然写出来的时候使用coalese算子可以先合并下

0
4
Michael_PK
回复
慕粉3334211
写个专门的作业,使用外部数据源读进来合并下然后写出去即可
2018-09-02
共4条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程