spark streaming 读取kafka的数据量不准确,请问是什么原因

来源:12-20 -将项目运行在服务器环境中

天狼武士

2018-01-25

根据视频中的方法配置了整套运行环境,然后用flume接收nginx的日志,我模拟了Nginx的日志,每0.1秒增加一条数据,然后spark streaming接收到流之后进行清洗之后存入HBase,其中我特意做了总数的count,用incrementColumnValue的方法自增,一共四十多万条数据,跑完之后发现HBase中统计的数据量才两三万,请问这是什么原因?谢谢!

写回答

1回答

Michael_PK

2018-01-25

这个需要你一步步排查,从flume到kafka有没有丢,让kafka到streaming有没有丢

0
3
天狼武士
回复
Michael_PK
好的!我试试!谢谢!
2018-01-25
共3条回复

Spark Streaming实时流处理项目实战

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

1404 学习 · 571 问题

查看课程