spark streaming 读取kafka的数据量不准确，请问是什么原因

首页课程实战体系课手记专栏慕课教程

spark streaming 读取kafka的数据量不准确，请问是什么原因

来源：12-20 -将项目运行在服务器环境中

天狼武士

2018-01-25

根据视频中的方法配置了整套运行环境，然后用flume接收nginx的日志，我模拟了Nginx的日志，每0.1秒增加一条数据，然后spark streaming接收到流之后进行清洗之后存入HBase，其中我特意做了总数的count，用incrementColumnValue的方法自增，一共四十多万条数据，跑完之后发现HBase中统计的数据量才两三万，请问这是什么原因？谢谢！

写回答

1回答

Michael_PK

Michael_PK

2018-01-25

这个需要你一步步排查，从flume到kafka有没有丢，让kafka到streaming有没有丢

0

3

天狼武士

回复

Michael_PK

好的！我试试！谢谢！

2018-01-25

共3条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

相似问题

请教老师spark streaming能直接读取hbase或hive的数据，然后实时计算输出？

回答 1

spark streaming运行较长时间后报错kafka.common.OffsetOutOfRangeException

回答 3

老师我有个问题：首先数据到kafka，数据是要全部弄到kafka上，streaming在去处理，还是数据一点一点的到kafka上...

回答 1

flume kafka spark streaming

回答 1

hdfs 作为spark streaming 的实时存储是否合适,会产生大量小文件是否不稳定

回答 2

打开慕课网App查看更多内容