如果要统计月,年的数据,如何实现?

来源:4-21 本章小结

慕姐2849259

2021-11-30

PK老师好,现在这个例子是把天数据20190130放在了一张access_20190130的表里。
1,每天的数据放一个天表?还是每天的数据放天表,也放月表,也放年表?统计的月数据时候,在月表里计算;统计年数据的时候在年表里计算?但是如果跨月,跨年就悲剧了。
2,如果把所有access的天数据放一个大表,是不是大表保存一定周期的数据?比如保存三年的数据,超过三年的数据,先把指标计算好,保存在统计表里,再把超期的数据保存到其他集群中?
请老师赐教

写回答

1回答

Michael_PK

2021-12-05

好问题。

第一个问题思路分析:如果是hive表,就可以使用一个表,用时间做分区。如果是hbase表,那还是使用一个表就可以的,通过rowkey相关的来区分。 所以不需要多个表,一个表即可

第二个问题思路分析:这种表一般生产环境不会存太多的时间的,比如半年、一年足以。然后其他的数据备份到冷集群上去即可。


0
1
慕姐2849259
谢谢pk老师,让我大开思路,我想我需要大数据的思想来考虑问题
2021-12-06
共1条回复

Spark进阶 大数据离线与实时项目实战

大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优

700 学习 · 190 问题

查看课程