one-hot编码导致RandomForest预测准确率下降

来源:13-5 随机森林和 Extra-Trees

fayssica

2018-11-02

在使用RandomForest对带噪声的MNIST数据集(https://csc.lsu.edu/~saikat/n-mnist/)上进行分类预测时发现,在加入高斯白噪声和降低对比度的MNIST数据集上(Reduced Contrast and AWGN),对label使用one-hot编码后分类准确率只有20%+,而不使用one-hot编码的准确率可以达到80%+,虽然知道树模型不依赖欧氏距离可以不用独热码,但是用了以后准确率下降那么多也很奇怪啊,不清楚怎么解释这个问题,求助波波老师

写回答

2回答

liuyubobobo

2018-11-02

没有理解。MNIST本身每个特征是一个一个像素位置的灰度值,是一个数值特征(numeric),而非类别特征(category),如何使用one-hot?把每个值都当一个特征。那岂不本身28*28的特征量,变成了28*28*256?如此高的维度,必然遭遇维度灾难。

0
4
liuyubobobo
回复
fayssica
MNIST数据本身对应的是一个multi-class的问题,为什么要转换成multi-output的问题?
2018-11-02
共4条回复

fayssica

提问者

2018-11-02

补充一下,三个噪声集都也有这个现象,第三个数据集噪声最大,差异也最明显,而Decision Tree没有这个问题

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程