spark streaming 读取kafka的数据量不准确,请问是什么原因
来源:12-20 -将项目运行在服务器环境中

天狼武士
2018-01-25
根据视频中的方法配置了整套运行环境,然后用flume接收nginx的日志,我模拟了Nginx的日志,每0.1秒增加一条数据,然后spark streaming接收到流之后进行清洗之后存入HBase,其中我特意做了总数的count,用incrementColumnValue的方法自增,一共四十多万条数据,跑完之后发现HBase中统计的数据量才两三万,请问这是什么原因?谢谢!
写回答
1回答
-
Michael_PK
2018-01-25
这个需要你一步步排查,从flume到kafka有没有丢,让kafka到streaming有没有丢
032018-01-25
相似问题