老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他 的schema这个改怎样去做

来源:8-2 -实战之updateStateByKey算子的使用

慕容128306

2019-09-25

写回答

1回答

Michael_PK

2019-09-25

1)streaming读取topic的数据到hdfs可能有点隐患,如果是默认的输出,那必然会产生很多小文件,这种架构估计会对HDFS NN产生很大压力

2)parquet是内置自带schema的,spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息

0
4
Michael_PK
回复
慕容128306
这个写法需要你自己调研。你现在这个方式写,我很好奇你产生的小文件有多少?
2019-09-25
共4条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程