老师,请问分类问题有什么方法比较?

来源:9-3 单因素方差分析(下)

Jazz_Qi

2019-09-13

譬如目标变量违约为1和不违约为0,分布是0/1分布,但不同组(如:男女)的平均数还是有业务意义(违约率),这时候是用均值(违约率)比较还是用其它什么方法比较分组对目标变量的影响是否显著不同?

写回答

1回答

Angelayuan

2019-09-13

好问题。

  1. 在只有一个变量且为分类变量并且只有两个水平的时候,我们关心的指标是"比例(proportion)", 它的计算方法跟均值类似(把所有0和1加起来再除以总个数)。如果我们想考察总体的proportion是否等于某个数字的时候,就是对一个总体的proportion的检验,类似于对一个总体均值的检验。样本propotion近似服从正态分布,这个正态分布的均值就是你的零假设中的prportion的数字(记为p),方差就是p(1-p)/n,其中n为样本容量。那么后续的步骤其实就跟对一个总体均值的检验(Z检验)一样了。

  2. 在有两个分类变量且至少其中一个变量为两个水平的时候,我们关心的指标还是"比例(proportion)"。这个时候我们想考察的是两个总体proportion是否相等,类似于对两个正态总体均值差的检验。样本比例差近似服从正态分布,这个正态分布的均值为0(零假设中的数字),方差为联合方差,等于p1(1-p1)/n1 + p2(1-p2)/n2。这里的p1, p2是样本比例。

  3. 如果分类变量的水平大于等于3,则需要使用卡方拟合检验(chi-square goodness of fit)。

0
3
Jazz_Qi
感谢老师。
2019-09-15
共3条回复

专为程序员设计的统计课

清晰的统计学知识网络+与编程结合的讲解方式+数据可视化展示

1605 学习 · 145 问题

查看课程