老师,请问分类问题有什么方法比较?
来源:9-3 单因素方差分析(下)
Jazz_Qi
2019-09-13
譬如目标变量违约为1和不违约为0,分布是0/1分布,但不同组(如:男女)的平均数还是有业务意义(违约率),这时候是用均值(违约率)比较还是用其它什么方法比较分组对目标变量的影响是否显著不同?
写回答
1回答
-
好问题。
在只有一个变量且为分类变量并且只有两个水平的时候,我们关心的指标是"比例(proportion)", 它的计算方法跟均值类似(把所有0和1加起来再除以总个数)。如果我们想考察总体的proportion是否等于某个数字的时候,就是对一个总体的proportion的检验,类似于对一个总体均值的检验。样本propotion近似服从正态分布,这个正态分布的均值就是你的零假设中的prportion的数字(记为p),方差就是p(1-p)/n,其中n为样本容量。那么后续的步骤其实就跟对一个总体均值的检验(Z检验)一样了。
在有两个分类变量且至少其中一个变量为两个水平的时候,我们关心的指标还是"比例(proportion)"。这个时候我们想考察的是两个总体proportion是否相等,类似于对两个正态总体均值差的检验。样本比例差近似服从正态分布,这个正态分布的均值为0(零假设中的数字),方差为联合方差,等于p1(1-p1)/n1 + p2(1-p2)/n2。这里的p1, p2是样本比例。
如果分类变量的水平大于等于3,则需要使用卡方拟合检验(chi-square goodness of fit)。
032019-09-15
相似问题