流处理如何按某个用户某个小时聚合再入库

来源:7-18 需求三功能实现

燃着的半支烟

2022-08-09

视频中的案例,是每次日志过来都计算,然后都入库。
如果某个用户每个小时可能有N条日志数据过来,怎么按小时做持续汇总,再持续更新到库里?相当于每个用户每小时在库里只允许有1条数据

写回答

1回答

Michael_PK

2022-08-11

1)数据清洗后入库,然后按照每个小时每个用户 去做统计处理

2)可以是用window开一个窗口进行处理

0
2
Michael_PK
回复
燃着的半支烟
带state是一种方式,也可以把数据清洗后直接落在某种数据库中,然后后续直接使用sql进行统计也是可以的呢,这种方式一定要基于eventtime来出来,不然不能保证数据的一次消费
2022-08-14
共2条回复

Spark3实时处理-Streaming+StructuredStreaming实战

实战Spark3实时处理,掌握两套企业级处理方案

340 学习 · 238 问题

查看课程