老师可以讲一下存储hive数仓的详细步骤吗?

来源:2-9 【项目文档】 项目整体架构及整体流程

Crazy酱汁

2022-07-27

按照代码里面的逻辑,每次存进dw.dws_user_action_tags_map_all执行的是全量覆盖,怎么样实现标签流水表和标签主题表的增量存储呢?如果是多个job协同的话,应该怎样调度呢?

写回答

1回答

小简同学

2022-07-28

同学你好,执行存储到hive的函数是在 Utils/HiveUtils 里面 hiveSave() , 这个方法。只要将 SaveMode.OverWrite,改为 SaveMode.Append 就可以进行增量存储了。

//img.mukewang.com/szimg/62e23cc609bac86c19250856.jpg

0
3
Crazy酱汁
回复
小简同学
那老师这个表后期如何维护呢? 随着数据量增加会应该会出现同一个人同一个标签存在多条记录,以及冗余数据怎么删除呢?
2022-08-13
共3条回复

Spark+ES+ClickHouse 构建DMP用户画像

大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握

306 学习 · 219 问题

查看课程