关于批量插入作业

来源:7-5 API操作之插入数据&删除表&数据查询

慕移动6222658

2020-02-12

图片描述
在网上搜了些资料,kudu的批量插入执行,貌似没有特定的方式,是通过将要插入的数据写入内存,然后再批量落入磁盘中的
通过设置FlushMode.MANUAL_FLUSH,来实现批量插入
数据会先写到缓存区,在调用session.flush() 方法后,才会执行写操作
对于缓存区大小的设置,可以在官网找到
可以在/etc/kudu/conf/tserver.gflagfile 文件中设置
–memory_limit_hard_bytes 这个参数 默认是4294967296 单位应该是字节吧
不知道做的对不对,pk老师看见了,还烦请批下作业

写回答

1回答

Michael_PK

2020-02-12

单位看字面意思应该是字节,你这么操作理论上应该可以,直接使用外部数据源的方式好像也有参数可以控制

0
3
Michael_PK
回复
慕少7351152
spark批量写入的话,可以到社区上找下是否有sparksql对接的kudu的外部数据源,直接通过外部数据源写入就可以
2022-06-27
共3条回复

SparkSQL入门 整合Kudu实现广告业务数据分析

大数据工程师干货课程 带你从入门到实战掌握SparkSQL

535 学习 · 192 问题

查看课程