老师,请教置信区间的理解。
来源:7-5 置信区间:一个正态总体的情况(上)
Jazz_Qi
2019-08-19
老师你不止一次提醒是真实落入置信区间的可信程度是(1-a)%,而不是置信区间有(1-a)%几率包含真值。我感觉语言上很接近或很迷糊。
能不能再形而下一点说明其区别?
我直接用下面这个方式理解是否可以:把置信区间当作是一个样本的统计量,然后这个统计量有两种结果,包含真值为1,不包含为0。然后抽n个样本也能得到n个0/1变量的观察值。这n个0/1观察值对应的0/1变量为1的概率就是置信度。当样本量/方差/置信度对应的Za变动就会影响这个0/1变量的概率分布。
1回答
-
你的理解基本正确,但是置信区间不是一个样本统计量;置信区间包含两个统计量,分别为置信上限(这是一个统计量)和置信下限(这是第二个统计量)。
在置信水平(1-alpha)确定的情况下(alpha通常取0.05,0.01这类值,所以1-alpha通常为0.95,0.99),每一个样本可以得到一个置信区间。由于真值是确定的(只是我们不知道真值到底等于多少),所以基于一个样本得到的区间,要么包含真值,要么不包含真值。你可以把计算出一个置信区间类比成抛一次硬币,把包含真值类比成正面朝上(或包含真值=1),不包含真值类比成反面朝上(不包含真值=0)。如果你有n个样本,你就可以计算出n个置信区间,可以类比为抛了n次硬币。这n个置信区间中,包含真值的区间所占的比例就等于95%(如果alpha=0.05);或者你可以类比成,抛了n次硬币,正面朝上所占的比例等于95%(如果alpha=0.05)。
在求解区间之前,你首先要确定置信水平(类似抛n次硬币,正面朝上的比例要先确定下来)。只要你确定了置信水平,那么n个区间中包含真值的区间所占的比例就固定了,不会随着样本容量/方差的变化而变化;随着这些变化的是区间的上下限对应的具体值。所以你的最后一句话"当样本量/方差/置信度对应的Za变动就会影响这个0/1变量的概率分布"这句话是错误的。
最后,这个置信区间(confidence interval)的解读是属于频率学框架下的;在贝叶斯统计的框架下,也有置信区间的概念,英文叫做credible interval, 这个区间的解读跟直觉是相符的,即区间包含某真值的概率为95%。credible interval会在贝叶斯统计那章讲。
012019-08-19
相似问题