请问如果有一千多个变量的话怎么做特征选择?

来源:8-3 样本选择与特征选择相关知识

慕粉114911745

2018-12-17

离散和连续变量都很多,而且每个离散变量有很多维,直接代入模型会跑不动,那么以怎样的顺序做特征选择呢?

写回答

1回答

David

2018-12-17

首先说你跑不动的问题 假使你有一千特征。就算全是离散特征,你做离散化,每一纬度特征你离散化成10维。那一共才1w特征,100w样本足以让他不会过拟合。这些特征对于lr这种浅层模型来说 也就1w个参数 不存在跑不动,如果你放到wd这种深度模型更不是问题。 再一个特征选择问题,我们要首先抽象问题,比如把特征分成user侧与item侧,甚至还会有user item的relation特征等等,首先要首选符合逻辑的特征,模型其实是刻画一个函数来表示特征与结果之间关系。我举个例子。比如我们要预测一个人的年龄段,那我们选他有几个表哥这种特征没啥用,选他爸爸妈妈多少岁这种特征肯定会好很多。

1
1
慕粉114911745
数值特征好处理,主要有几百个离散特征,很多离散特征都有上百维或者更多,直接离散化会生成几十万维的特征,这个比较难处理。背景是我们是用的现成的宽表,想看看哪些对预测Y标签有用,所以不太可能一个个去处理特征
2018-12-17
共1条回复

个性化推荐算法实战(可用于毕设) BAT大牛亲授

让你掌握一套完整的,能落地的个性化推荐算法体系。可用于毕设。

839 学习 · 253 问题

查看课程