spark streaming WebUi上job对应的Batch time和submitted时间的差距大

来源:15-3 -Kafka整合SparkStreaming的offsets管理宏观介绍

牛顿f5

2019-03-20

(截图在最下面)
spark streaming刚启动时Batch time和submitted时间是相同的,但是应用运行时间越长差距越大
我的应用程序中batch Duration是10s
有三个输出操作,对应三个job:
第一个是count()操作
第二个是window,foreachPartition操作(windowLength是5m,slideInterval是3m)
第三个也是window,foreachPartition操作(windowLength是1h,slideInterval是3m)

想请问,这个WebUi上job对应的Batch time是什么意义呢?正常应该也是10s一个批次吧?为什么我这里一个新提交的job会处理很久以前打包的batch呢?而且这种处理过时batch的操作耗时还相对较长,这种情况可能是在哪些方面出问题呢?
图一是job页面的结果,图二是streaming页面的结果,streaming页面显示的batch time是每10s一个批次,这个看起来比较正常。

图片描述

图片描述

写回答

1回答

Michael_PK

2019-03-20

最后一个图的batchtime就是你streamingcontext里面设置的批次的时间,前面的图感觉显示的不太对,最后一个图才是真正的batchtime。处理的时间长,推测是前面的作业有的pending没执行完,导致后续的批次的作业运行就慢点。适当的调整下资源,core的数量等提升作业的并行度

0
0

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程