关于5-14 HR表特征预处理中,对离散变量的处理
来源:6-7 分类-集成-随机森林

慕瓜7596423
2018-09-29
老师您好,对离散变量的处理(如department)您给了2种方法,label encoding和one hot,one hot没问题,但label encoding只是把该离散变量的不同水平对应给了不同的数字,这样会使这个变量变成连续变量,会添加额外的信息在里面(原本这个变量不具有“排序”的信息)。这样的变量放入随机森林中,某次按照该变量切分样本的时候,就会按照连续变量切分,这样是否有问题?因为department根本来说是离散的,不具有排序/大小这样的信息。
写回答
1回答
-
同学你好,你说得没错,对于定类数据来说,one-hot确实更合理,label encoding也确实加入了更多信息。hr例子里,用one hot更合理,这个没错,label encoding是希望大家记住有这么个变换。需要留意一点的是,有些模型(如不剪枝的决策树),二者变换后最后的效果是一致的。
112018-10-08
相似问题