sss 编程模型

来源:8-5 Structured Streaming编程模型

慕盖茨9116835

2023-02-01

因为input是一个unbounded 的table 每次间隔会新增input 那每次计算都要把所有的之前的都重新计算 假如间隔久 量大是不是很费资源 因为以前已经统计过的有得重新计算 而不是计算新的进来的数据 然后再加到老的算好的数据里;怎么理解这两种不同的模型。 是不是其他流处理框架(flink)不重复计算以前的数据,从来节省资源。

写回答

1回答

Michael_PK

2023-02-02

那每次计算都要把所有的之前的都重新计算 假如间隔久 量大是不是很费资源”你这句话的理解是有一定道理的,所以要结合wm来进行处理,比如超过多少时间了,就丢弃了。或者是划分window后,基于窗口的范围来进行计算。


flink也是一样的,都是基于checkpoint的机制,将状态数据持久化。

0
0

Spark3实时处理-Streaming+StructuredStreaming实战

实战Spark3实时处理,掌握两套企业级处理方案

340 学习 · 238 问题

查看课程