关于5-14 HR表特征预处理中,对离散变量的处理

来源:6-7 分类-集成-随机森林

慕瓜7596423

2018-09-29

老师您好,对离散变量的处理(如department)您给了2种方法,label encoding和one hot,one hot没问题,但label encoding只是把该离散变量的不同水平对应给了不同的数字,这样会使这个变量变成连续变量,会添加额外的信息在里面(原本这个变量不具有“排序”的信息)。这样的变量放入随机森林中,某次按照该变量切分样本的时候,就会按照连续变量切分,这样是否有问题?因为department根本来说是离散的,不具有排序/大小这样的信息。

写回答

1回答

途索

2018-09-30

同学你好,你说得没错,对于定类数据来说,one-hot确实更合理,label encoding也确实加入了更多信息。hr例子里,用one hot更合理,这个没错,label encoding是希望大家记住有这么个变换。需要留意一点的是,有些模型(如不剪枝的决策树),二者变换后最后的效果是一致的。

1
1
慕瓜7596423
非常感谢!
2018-10-08
共1条回复

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程