请教azkaban捕获异常的原理

来源:13-19 -课程总结及展望(重点关注)

慕粉0036235932

2018-08-23

之前在创业公司,我是自己使用python配合mysql记录状态做的数据调度,但是我没有办法捕获spark之类的异常,只能采用检查输出结果的方式来判断上一步是否执行成功,但是由于统计具有数据量不定的特性,根本无法做到数据量的比较,也写过一些pyspark的程序,但是依旧不知道该怎么捕获spark的异常,请问老师知不知道azkaban是如何捕获spark的异常的呢,是把常用的spark异常拿到日志中进行匹配吗,求指导。

另外我了解到在调度方面的工具azkaban、kettle、airflow、luigi、oozie,我更倾向于airflow,python实现,控制流程也能用python代码,相对来说更加灵活,不知道老师有没有打算讲一下airflow之类的


写回答

1回答

Michael_PK

2018-08-23

这几个调度框架各有利弊,熟悉py的可能是airflow用起来顺手点。但是这些调度系统都各有利弊,oozie太重量级,az想在生产上使用要编辑job,airflow对于不熟悉py的人来说基本就放弃。我们是基于az进行的二次开发,直接在az上实现托拉拽的功能,然后根据自己的业务定制开发现在基本能满足我们的需求。你说的自己写的那种很难做到准备异常的捕获的,仅仅能做的就是最终的输出来作为是否成功的衡量依据。

0
0

Python3实战Spark大数据分析及调度

使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度

1046 学习 · 434 问题

查看课程