老师,在处理数据过程中,需要对比两组数据的分布情况

来源:1-2 课程导学

慕运维7479159

2018-04-08

老师,在处理数据过程中,需要对比两组数据的分布情况,

但是直接判断两组数据的方式有 相关性算法,但是这种方式在维度过大的时候根本不现实,

现在考虑 现将这些维度降维,降维的方式 是使用 均值,偏态,峰态,四分位数,众数,将原来数组降维,不知道这种方式是否能够比较两个数组的分布情况,效果如何,以及在实际生产中是否能这样使用

写回答

1回答

途索

2018-04-08

同学你好,这个问题我是有些困惑的。如果是两组数据,为什么会涉及到“降维”?你说的降维是指用均值,偏态,峰态,四分位数,众数去指代两个大样本容量的数据的特性,来对比它们的分布情况么?这种情况,可以直接借鉴课程里”假设检验“这一章的内容,比较典型的是独立t分布检验,检验二者分布是不是一致。均值,偏态,峰态,四分位数,众数也可以大致看出数据的分布情况,如果想更好看出数据分布的情况,直接绘图就好,如果数据量大,可以考虑先采样,再绘图。

1
4
途索
回复
慕运维7479159
假设检验是个在机器学习概念铺天盖地宣传的情况下,被低估的统计学工具。加油。
2018-04-09
共4条回复

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程