spark streaming WebUi上job对应的Batch time和submitted时间的差距大
来源:15-3 -Kafka整合SparkStreaming的offsets管理宏观介绍

牛顿f5
2019-03-20
(截图在最下面)
spark streaming刚启动时Batch time和submitted时间是相同的,但是应用运行时间越长差距越大
我的应用程序中batch Duration是10s
有三个输出操作,对应三个job:
第一个是count()操作
第二个是window,foreachPartition操作(windowLength是5m,slideInterval是3m)
第三个也是window,foreachPartition操作(windowLength是1h,slideInterval是3m)
想请问,这个WebUi上job对应的Batch time是什么意义呢?正常应该也是10s一个批次吧?为什么我这里一个新提交的job会处理很久以前打包的batch呢?而且这种处理过时batch的操作耗时还相对较长,这种情况可能是在哪些方面出问题呢?
图一是job页面的结果,图二是streaming页面的结果,streaming页面显示的batch time是每10s一个批次,这个看起来比较正常。
写回答
1回答
-
Michael_PK
2019-03-20
最后一个图的batchtime就是你streamingcontext里面设置的批次的时间,前面的图感觉显示的不太对,最后一个图才是真正的batchtime。处理的时间长,推测是前面的作业有的pending没执行完,导致后续的批次的作业运行就慢点。适当的调整下资源,core的数量等提升作业的并行度
00
相似问题