两个问题关于Direct方式

来源：10-10 -Direct方式整合之服务器环境联调

Echo鑫

2017-11-10

1. 第二种方式，SparkStreaming是如何从kafka里获取数据的，没太理解

官网解释是： this approach periodically queries Kafka for the latest offsets in each topic+partition, and accordingly defines the offset ranges to process in each batch.

是自己主动去kafka里周期性地取的意思吗？老师能稍微再解释下这第二种方式吗？

2. offset这个偏移量以及offset range偏移量的范围具体含义是什么，有点没听明白了，看了官网也没咋清楚，后面老师您又提到了消费的偏移量，那这么说offset应该是kafka里的，难道是指生产的馒头？是的话，那在具体业务场景里，这个偏移量又指的什么？

写回答

1回答

Michael_PK

2017-11-10

已采纳

是根据偏移量去kafka获取！偏移量就是kafka中已经被消费掉的一个记录。你可以搜索databricks官网，它有这个方式的详细介绍

Echo鑫

Michael_PK

由于根据老师您的建议在写博客做笔记，所以对于一些细节有点纠结，谢谢老师了 ~~~///(^v^)\\\~~~

2017-11-10

共5条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程

相似问题

sparkstreaming对接kafka时选择哪种方式（在实际生产），关于重复消费怎么解决？

回答 1

rdd的partition分区问题

回答 1

Exception in thread "Thread-0" kafka.common.FailedToSendMessageException

回答 5

关于消费kafka是否需要保存offset的问题？

回答 1

老师,使用了很多方法,每秒写入数据三百万,这样的压力依然如图

回答 2

打开慕课网App查看更多内容