怎么量化flume + kafka带来的性能提升

来源:4-11 -Kafka实战之整合Flume和Kafka完成实时数据采集

慕的地1451657

2019-09-18

PK老师好,因为求职简历里不仅需要写用到了哪些技术栈最好还要写出由此提高了多少性能,我有一个采集嵌入式设备多个节点数据并进行处理的任务,项把它升级为这门课里讲的flume+kafka+spark streaming的处理架构,那我应该怎么量化由此得到的性能提升呢(例如提高throughput, 降低latency), 我觉得需要测试用flume+kafka+spark streaming之前的throughput和用之后的throughput,但不知道应该怎样科学的设计实验得到使人信服的结论并写到简历上,老师可否指点下思路,谢谢老师!

写回答

1回答

Michael_PK

2019-09-18

对于流处理系统来说,给你几个思路,你参考下:
1:整个链路如何保证数据不丢失,以及如何监控。2:kafka offset如何管理。3)流处理完kafka的数据,如果kafka的数据处理多次,那么如何保证存储结果只有一次,否则数据就重复了。 4)背压。这些是不管使用什么流处理框架,都是必须要关注的,这些必然是简历上要体现的

2
6
慕九州6023150
回复
Michael_PK
好的谢谢老师
2022-05-24
共6条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程