关于数据转换的问题
来源:6-5 梯度下降法的向量化和数据标准化
weixin_慕少409219
2019-07-30
老师,问您个问题,在拟合幸福指数的模型中,有个变量是出生省市,准备先用逻辑回归,我考虑如果不对省市进行one-hot转换的话,把各省市按照对应的幸福指数均值从小到大将变量从新赋值为1,2,3…这样,但又觉得这样不妥,这相当于人为把这个变量加工成显著的变量了,但转one-hot编码相当于生成了31个变量,不知道您怎么看?
写回答
1回答
-
应该使用one-hot。
使用1,2,3... 这样编码的方式,还有一个问题,就是相当于默认省市之间有大小关系,这和这个特征实际表达的语义不符。
比如,风险级别:低,中,高;或者距离地铁远近:步行可达;自行车可达;公交可达,等等,这类类别特征,特征可选项之间,有“序”的关系,更适合用数值编码,而不用 one-hot。
继续加油!:)
012019-07-31
相似问题