foreachPartition 数据会出现重复的问题

来源:9-12 -Scala操作MySQL工具类开发

like4638

2017-11-09

registerRdd.foreachPartition(partition => {
    val mapArr:ArrayBuffer[String] = ArrayBuffer()
    partition.foreach(row => {
      val appid = row(0)
      val uid = row(1)

      println("appid->" + appid + "uid->" + uid)
    })
})

老师,比如这样的代码,我这里没有特定指定分区,是默认设置的,然而最后发现println两次的数据都是一样的,导致我插入的数据重复了,这是为什么呢?

写回答

1回答

like4638

提问者

2017-11-09

我的问题。。老师不用回答了,是我数据本来就重复了

1
0

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程