请问数据采集比较专业的做法是怎样的?
来源:4-21 【面试讨论题】Task Slot的理解

Amourxxxx
2021-06-07
我之前用spark的做法就是,一个spark任务,消费多个topic,然后用filter去循环不同的topic并且insert hive,现在flink其实也可以这样做。但是有个问题是,如果我有一百个topic要同步,全部使用这一个flink程序的话靠谱么。而且资源应该也要给很大。有没有其他什么比较专业的解决方案呢?
比如看到有个组件叫datax,通过配置的方式来启动采集任务,但是,一个采集任务就是一个单独的flink,如果任务很多,岂不是很占资源而且任务多不好管理.
写回答
1回答
-
Michael_PK
2021-06-09
首先:flink对接多少个topic,这个问题要根据业务来,你们的业务是否相关的都在一起处理,而且你放到一起处理的话,你们给的并行度是否能跟的上,这都是需要评估的问题的,资源够,业务关联度高,是可行的
其次:datax是一个异构数据源之间高速稳定的数据移动能力的框架,你接过来之后还是需要对接的流引擎上去处理呢
022021-06-23
相似问题