关于foreachRdd的并行问题

来源:6-7 -Spark Streaming工作原理(粗粒度)

like4638

2017-11-10

lines.foreachRDD(rdd => {
  val logRdd = rdd.map(line => LogHandler.parser(line)).filter(_(2) != 0)

  val scheme = LogHandler.makeScheme()
  val rowRDD = logRdd.map(row => LogHandler.makeRowRdd(row))

  val df = session.createDataFrame(rowRDD, scheme)
  df.createOrReplaceTempView("realtime_log") // 如果是并行的,这里有可能会出现被其他并
  行任务覆盖掉的可能吗?
})

我的意思就是如果rdd有多个并且并行执行,这样任务节点A注册的realtime_log有可能会被任务节点B覆盖掉吗

写回答

1回答

Michael_PK

2017-11-10

这个表不是节点级别的,是作业级别的

0
4
Michael_PK
回复
like4638
哈哈哈哈,萝卜青菜各有所爱
2017-11-10
共4条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程