这节分布没有听懂, 偏态,峰态没有更感性的理解。 还有三大分布图看的不是很清楚
来源:3-3 数据分布--偏态与峰度

fangxingjing
2018-03-18
1回答
-
同学你好:
偏态是数据分布偏移的一种度量。比如说,有一组数:1,2,3,4,100。这组数的平均值是22,但这组数的分布是极其不均匀的,一个100,拉大了整体的平均值,把”整体水平“往大了拉,拿数轴来说,就是往右拉,就是右偏。偏态的正负性,一般是平均值和中位数进行相比,比如上例中,中位数是3,平均值是22,严重大于中位数,所以就是比较严重的正偏(右偏)。对应的,如果平均值小于中位数,就是左偏,也就是负偏。一般出现比较大的偏态,是由于样本里出现了相对于”大多数“来讲,更为偏激的数。比如,你,我,马云,三个人的平均资产有好几十亿,或者好几百个亿,但你和我却不觉得自己有钱,就是数据偏态过于严重带来的问题和隐患。
峰态就是图形尖锐程度的衡量,峰态越大,图形就越尖,峰态越小,图形就越平缓。拿数据角度来说,如果峰态特别大,就越集中。举个例子,比如,两组数,第一组:1,50,50,50,100。第二组:1,40,50,60,100。第一组的分布,50有3个样本,第二组的分布,40,50,60各有一个样本,第一组的分布更为集中,从分布的形状上来看,就是更尖。峰态也可以表征数据的集中程度,但相比于方差或者标准差,它对偏离均值的数是比较敏感的。如果有两组数,方差近似,但峰态系数一个比另一个大好多,意味着峰态系数大的这一组数,离均值近得数与均值的差更小(也就是更靠近均值),很有可能,同时,十分远离均值的数,又离得尤其远。百度有这么一张图,可以参考(这里的0,代表正态分布的峰态):
三大分布的图,如果想看高清版的,可以用以下几个函数直接先生成,然后用matplotlib画出来:
1、生成分布:包import scipy.stats as ss
ss.norm.pdf
ss.t.pdf
ss.f.pdf
pdf就是直接生成了分布的概率数据函数,最重要的参数就是分布函数的横坐标,可以通过如下方式绘制:
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
x=np.arange(-10,10,0.1)
y=ss.norm.pdf(x)
plt.plot(x,y)
plt.show()
绘制后还可以加上标注、标线等。
432019-03-07
相似问题