请问数据采集比较专业的做法是怎样的?

来源:4-21 【面试讨论题】Task Slot的理解

Amourxxxx

2021-06-07

我之前用spark的做法就是,一个spark任务,消费多个topic,然后用filter去循环不同的topic并且insert hive,现在flink其实也可以这样做。但是有个问题是,如果我有一百个topic要同步,全部使用这一个flink程序的话靠谱么。而且资源应该也要给很大。有没有其他什么比较专业的解决方案呢?
比如看到有个组件叫datax,通过配置的方式来启动采集任务,但是,一个采集任务就是一个单独的flink,如果任务很多,岂不是很占资源而且任务多不好管理.

写回答

1回答

Michael_PK

2021-06-09

首先:flink对接多少个topic,这个问题要根据业务来,你们的业务是否相关的都在一起处理,而且你放到一起处理的话,你们给的并行度是否能跟的上,这都是需要评估的问题的,资源够,业务关联度高,是可行的

其次:datax是一个异构数据源之间高速稳定的数据移动能力的框架,你接过来之后还是需要对接的流引擎上去处理呢

0
2
Michael_PK
回复
Amourxxxx
flinkx没用过,这只是人家公司内部使用的一个框架,具体如何不清楚。
2021-06-23
共2条回复

Flink+ClickHouse 玩转企业级实时大数据开发

已经在做大数据,Flink助力轻松提薪;尚未入行,让你弯道超车

1000 学习 · 225 问题

查看课程