这节分布没有听懂, 偏态,峰态没有更感性的理解。 还有三大分布图看的不是很清楚

来源:3-3 数据分布--偏态与峰度

fangxingjing

2018-03-18

写回答

1回答

途索

2018-03-18

同学你好:

偏态是数据分布偏移的一种度量。比如说,有一组数:1,2,3,4,100。这组数的平均值是22,但这组数的分布是极其不均匀的,一个100,拉大了整体的平均值,把”整体水平“往大了拉,拿数轴来说,就是往右拉,就是右偏。偏态的正负性,一般是平均值和中位数进行相比,比如上例中,中位数是3,平均值是22,严重大于中位数,所以就是比较严重的正偏(右偏)。对应的,如果平均值小于中位数,就是左偏,也就是负偏。一般出现比较大的偏态,是由于样本里出现了相对于”大多数“来讲,更为偏激的数。比如,你,我,马云,三个人的平均资产有好几十亿,或者好几百个亿,但你和我却不觉得自己有钱,就是数据偏态过于严重带来的问题和隐患。

峰态就是图形尖锐程度的衡量,峰态越大,图形就越尖,峰态越小,图形就越平缓。拿数据角度来说,如果峰态特别大,就越集中。举个例子,比如,两组数,第一组:1,50,50,50,100。第二组:1,40,50,60,100。第一组的分布,50有3个样本,第二组的分布,40,50,60各有一个样本,第一组的分布更为集中,从分布的形状上来看,就是更尖。峰态也可以表征数据的集中程度,但相比于方差或者标准差,它对偏离均值的数是比较敏感的。如果有两组数,方差近似,但峰态系数一个比另一个大好多,意味着峰态系数大的这一组数,离均值近得数与均值的差更小(也就是更靠近均值),很有可能,同时,十分远离均值的数,又离得尤其远。百度有这么一张图,可以参考(这里的0,代表正态分布的峰态):

//img.mukewang.com/szimg/5aae0a810001d1f309970714.jpg

三大分布的图,如果想看高清版的,可以用以下几个函数直接先生成,然后用matplotlib画出来:

1、生成分布:包import scipy.stats as ss

ss.norm.pdf

ss.t.pdf

ss.f.pdf

pdf就是直接生成了分布的概率数据函数,最重要的参数就是分布函数的横坐标,可以通过如下方式绘制:

import numpy as np

import scipy.stats as ss

import matplotlib.pyplot as plt

x=np.arange(-10,10,0.1)

y=ss.norm.pdf(x)

plt.plot(x,y)

plt.show()

绘制后还可以加上标注、标线等。

4
3
莹莹老师
回复
途索
老师好用心,这么详细的回复,给你点赞。
2019-03-07
共3条回复

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程