日志文件多的问题

来源:9-6 数据清洗之第一步原始日志解析

慕仙4974986

2018-11-02

就说一个文件,如果今天早上读取了这个日志文件,读取完了,也统计完了,然后第二天,往这个日志文件中新写入的数据,如果说第二天还要重新统计一下日志数据,第二天之前的数据,还需要重新统计吗?就不能复用之前的统计结果,加第二天的统计,就得出当前的统计结果了,这样可以吗?还是说要重新统计?如果有多个日志文件怎么办,日志文件是按天生成的。这么多日志文件怎么办?每次统计,所有的日志文件,都需要重新统计一次吗?

写回答

2回答

Michael_PK

2018-11-02

第二天的日志不可能写到昨天的日志中去,每天的日志都在各自的目录下的

0
1
慕仙4974986
非常感谢!
2018-11-02
共1条回复

慕仙4974986

提问者

2018-11-02

多个文件的日志怎么统计,因为日志是不断产生的,因为日志的处理都是离线处理,新的日志文件产生后,要和老的日志文件,再次从新开始统计吗?原来的问题问了好几个,能认真回家一下吗?

0
1
Michael_PK
1)请描述下何谓不认真的回答?? 2)离线处理就是处理完一批就完了,和下一批有关系吗?比如说账单每天出的,难道第二天的账单还和第一天的有关系?你描述的那些话,不外乎新老数据如何累加,正常需求就不需要累加,如果你的需要是要累加那就累加不就行了。 3)一个日志文件和多个日志文件有区别吗?直接spark可以读取一个多个文件进行处理
2018-11-02
共1条回复

以慕课网日志分析为例 进入大数据Spark SQL的世界

快速转型大数据:Hadoop,Hive,SparkSQL步步为赢

1644 学习 · 1129 问题

查看课程