老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他的schema这个改怎样去做

来源：8-2 -实战之updateStateByKey算子的使用

慕容128306

2019-09-25

写回答

1回答

Michael_PK

2019-09-25

1）streaming读取topic的数据到hdfs可能有点隐患，如果是默认的输出，那必然会产生很多小文件，这种架构估计会对HDFS NN产生很大压力

2）parquet是内置自带schema的，spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息

Michael_PK

慕容128306

这个写法需要你自己调研。你现在这个方式写，我很好奇你产生的小文件有多少？

2019-09-25

共4条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

相似问题

回答 1

回答 1

回答 3

回答 1

回答 10