关于随机森林的问题
来源:13-5 随机森林和 Extra-Trees
nifo
2021-10-14
就是最近遇到一个项目的问题。我大概表述,就是2-3千个样本,有8百多个自变量(特征),我们这边有根据自变量(特征)得到的因变量(输出值)。然后我想通过能不能用随机森林方法筛选出大概30个对输出值有明显影响的自变量(特征)。
第二问题就是要不要对2-3千样本进行数据清洗,就是剔除无用的数据?
写回答
1回答
-
1)
当然可以。另外,特征如何选择也是一个“超参数”,有很多特征选择算法,如果觉得适合,都可以尝试一下。
除了利用这种机器学习算法“附带”的特征选择能力,使用统计学做特征选择也非常值得尝试。即计算因变量和自变量之间的不同的指标。(实际上,在我接触的范围里,这种方式更常见。)
另外,如果对特征的语义没有要求,降维的方式也可以尝试。比如 PCA。注意,降维的算法也有很多种,可以看看你的应用适合哪一种。
甚至,对于不同的领域,有专门的特征选择方式,是领域相关的。
2)
我不知道在你的应用中,是怎么定义“有用”和“无用”的,也不知道如果做了你说的“清洗”工作,还能剩下多少数据。即使你告诉我剩下了多少数据,我也无法判断这个量级的数据是否能够满足你的应用需求。这就是机器学习复杂的地方,他是没有一定之规的。所以数据的探索,实验,非常重要。否则,大家都使用一个路子处理完数据扔给模型就好了,机器学习也太简单了。
但是,因为你用的词汇是“无用”,如果你对“无用”的定义真的准确,那显然应该剔除。(比如你的应用是判断图片是猫还是狗,但是你的数据集里有汽车,那这些数据显然没有用,应该剔除。)
继续加油!:)
122021-10-15
相似问题