针对2-15的几个表结构能不能说一下本项目中几个数据处理相关组件的逻辑关系?

来源:2-10 【项目文档】Hive、Hbase、ES、clickhouse表结构

seven2021

2021-11-08

有点不太清楚,hive,hbase,ck还有es之间表的关系

主要是不太懂这个hodoop组件,单独拿es和ck来容易理解些,赶脚数据是在几个组件之间一通处理,

比如原始数据是从什么组件开始的,然后向什么方向流转,经过什么中间节点处理啥的,不好意思,还没看完全部视频,能大概讲讲一个基本流程么?谢谢

写回答

1回答

小简同学

2021-11-09

同学你好,下面是整个课程的架构思路

//img.mukewang.com/szimg/618a2de2094368ee16050908.jpg

这个课程主要讲了两个部分:1. 通过算法给用户打标签。2. 对用户标签进行组合圈选出用户群。

主要使用的组件就是hive,es,ch。这课程没有涉及数据的清洗,也没有涉及原始数据从哪个组件导入。所有的数据在环境搭建的数据导入的那里,已经全部把数据写入到各个组件里。

数据如何在各个组件流动同步,hive就是作为一个数据仓库,如果对hive不熟悉没关系,这里只需要关心两张表:用户标签流水表和用户标签主题表。其中用户标签主题表是和hbase的表形成映射关系,也就是说,用户标签主题表的数据会自动同步到hbase里。

用户标签主题表的数据是如何同步到es,是通过Spark,这个在课程有讲解。

用户标签主题表的数据是如何同步到ch,是通过WaterDrop,这个在课程有讲解。

这样子 ,hive,hbase,es,ch都具有了用户的标签数据。

课程的第一部分,通过算法给用户打标签,算法所使用的样本数据,就是读取Hive数仓的数据。

课程的第二部分,对用户标签进行组合圈选出用户群,介绍了两种解决方案,第一种方案是通过hbase+es。第二种方案是通过clickhouse的bitmap。

以上就是这个课程的教学思路。

1
0

Spark+ES+ClickHouse 构建DMP用户画像

大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握

306 学习 · 219 问题

查看课程