SparkStreaming实时处理的问题

来源:9-5 -从词频统计案例来了解SparkStreaming

nsko

2019-04-08

如果想要实时计算一段时间内数据的平均值和最高、最低,实现这个思路是什么?
1是不断的读取新文件实时计算?
2了解到窗口,那运用窗口可以吗?这个窗口的时间有没有最大最小?

写回答

1回答

Michael_PK

2019-04-08

可以使用窗口来搞定,在窗口的算子里面完成你所需要的最值问题。你只要把你窗口和你业务的范围设置成一样即可

0
4
Michael_PK
回复
nsko
流式作业没法停止的,一启动就直接跑了。
2019-04-09
共4条回复

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程