one-hot编码导致RandomForest预测准确率下降
来源:13-5 随机森林和 Extra-Trees
fayssica
2018-11-02
在使用RandomForest对带噪声的MNIST数据集(https://csc.lsu.edu/~saikat/n-mnist/)上进行分类预测时发现,在加入高斯白噪声和降低对比度的MNIST数据集上(Reduced Contrast and AWGN),对label使用one-hot编码后分类准确率只有20%+,而不使用one-hot编码的准确率可以达到80%+,虽然知道树模型不依赖欧氏距离可以不用独热码,但是用了以后准确率下降那么多也很奇怪啊,不清楚怎么解释这个问题,求助波波老师
写回答
2回答
-
liuyubobobo
2018-11-02
没有理解。MNIST本身每个特征是一个一个像素位置的灰度值,是一个数值特征(numeric),而非类别特征(category),如何使用one-hot?把每个值都当一个特征。那岂不本身28*28的特征量,变成了28*28*256?如此高的维度,必然遭遇维度灾难。
042018-11-02 -
fayssica
提问者
2018-11-02
补充一下,三个噪声集都也有这个现象,第三个数据集噪声最大,差异也最明显,而Decision Tree没有这个问题
00
相似问题