map算子里做去重操作

来源:4-10 开发环境依赖使用说明

慕仔7067995

2021-05-10

现有userDF和codeList,在map算子里对每一个user分配n个code(n最大为10),code不能重复使用,且需记录map算子中使用过的code。
我将codeList广播,每次使用一个就更新广播变量,但是在更新广播变量的时候报超时,我没想到更好的方法了。

写回答

1回答

Michael_PK

2021-05-11

广播这种是基本不变的,经常更新的那就不太适合使用广播了。

0
2
Michael_PK
回复
慕仔7067995
你原先是如何开发的,就是不使用广播了,还是一样的业务逻辑开发的呢。读取两个表的数据,按照你们预定的业务逻辑处理即可
2021-05-12
共2条回复

Spark进阶 大数据离线与实时项目实战

大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优

700 学习 · 190 问题

查看课程