关于数据转换的问题

来源:6-5 梯度下降法的向量化和数据标准化

weixin_慕少409219

2019-07-30

老师,问您个问题,在拟合幸福指数的模型中,有个变量是出生省市,准备先用逻辑回归,我考虑如果不对省市进行one-hot转换的话,把各省市按照对应的幸福指数均值从小到大将变量从新赋值为1,2,3…这样,但又觉得这样不妥,这相当于人为把这个变量加工成显著的变量了,但转one-hot编码相当于生成了31个变量,不知道您怎么看?

写回答

1回答

liuyubobobo

2019-07-31

应该使用one-hot。


使用1,2,3... 这样编码的方式,还有一个问题,就是相当于默认省市之间有大小关系,这和这个特征实际表达的语义不符。


比如,风险级别:低,中,高;或者距离地铁远近:步行可达;自行车可达;公交可达,等等,这类类别特征,特征可选项之间,有“序”的关系,更适合用数值编码,而不用 one-hot。


继续加油!:)

0
1
weixin_慕少409219
非常感谢!
2019-07-31
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程