老师,在处理数据过程中,需要对比两组数据的分布情况
来源:1-2 课程导学

慕运维7479159
2018-04-08
老师,在处理数据过程中,需要对比两组数据的分布情况,
但是直接判断两组数据的方式有 相关性算法,但是这种方式在维度过大的时候根本不现实,
现在考虑 现将这些维度降维,降维的方式 是使用 均值,偏态,峰态,四分位数,众数,将原来数组降维,不知道这种方式是否能够比较两个数组的分布情况,效果如何,以及在实际生产中是否能这样使用
写回答
1回答
-
同学你好,这个问题我是有些困惑的。如果是两组数据,为什么会涉及到“降维”?你说的降维是指用均值,偏态,峰态,四分位数,众数去指代两个大样本容量的数据的特性,来对比它们的分布情况么?这种情况,可以直接借鉴课程里”假设检验“这一章的内容,比较典型的是独立t分布检验,检验二者分布是不是一致。均值,偏态,峰态,四分位数,众数也可以大致看出数据的分布情况,如果想更好看出数据分布的情况,直接绘图就好,如果数据量大,可以考虑先采样,再绘图。
142018-04-09
相似问题