请问如果有一千多个变量的话怎么做特征选择?
来源:8-3 样本选择与特征选择相关知识

慕粉114911745
2018-12-17
离散和连续变量都很多,而且每个离散变量有很多维,直接代入模型会跑不动,那么以怎样的顺序做特征选择呢?
写回答
1回答
-
David
2018-12-17
首先说你跑不动的问题 假使你有一千特征。就算全是离散特征,你做离散化,每一纬度特征你离散化成10维。那一共才1w特征,100w样本足以让他不会过拟合。这些特征对于lr这种浅层模型来说 也就1w个参数 不存在跑不动,如果你放到wd这种深度模型更不是问题。 再一个特征选择问题,我们要首先抽象问题,比如把特征分成user侧与item侧,甚至还会有user item的relation特征等等,首先要首选符合逻辑的特征,模型其实是刻画一个函数来表示特征与结果之间关系。我举个例子。比如我们要预测一个人的年龄段,那我们选他有几个表哥这种特征没啥用,选他爸爸妈妈多少岁这种特征肯定会好很多。
112018-12-17
相似问题