老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他 的schema这个改怎样去做
来源:8-2 -实战之updateStateByKey算子的使用

慕容128306
2019-09-25
写回答
1回答
-
Michael_PK
2019-09-25
1)streaming读取topic的数据到hdfs可能有点隐患,如果是默认的输出,那必然会产生很多小文件,这种架构估计会对HDFS NN产生很大压力
2)parquet是内置自带schema的,spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息
042019-09-25
相似问题