关于随机森林的问题

来源：13-5 随机森林和 Extra-Trees

nifo

2021-10-14

就是最近遇到一个项目的问题。我大概表述，就是2-3千个样本，有8百多个自变量（特征），我们这边有根据自变量（特征）得到的因变量（输出值）。然后我想通过能不能用随机森林方法筛选出大概30个对输出值有明显影响的自变量（特征）。
第二问题就是要不要对2-3千样本进行数据清洗，就是剔除无用的数据？

写回答

1回答

liuyubobobo

2021-10-14

已采纳

1）

当然可以。另外，特征如何选择也是一个“超参数”，有很多特征选择算法，如果觉得适合，都可以尝试一下。

除了利用这种机器学习算法“附带”的特征选择能力，使用统计学做特征选择也非常值得尝试。即计算因变量和自变量之间的不同的指标。（实际上，在我接触的范围里，这种方式更常见。）

另外，如果对特征的语义没有要求，降维的方式也可以尝试。比如 PCA。注意，降维的算法也有很多种，可以看看你的应用适合哪一种。

甚至，对于不同的领域，有专门的特征选择方式，是领域相关的。

2）

我不知道在你的应用中，是怎么定义“有用”和“无用”的，也不知道如果做了你说的“清洗”工作，还能剩下多少数据。即使你告诉我剩下了多少数据，我也无法判断这个量级的数据是否能够满足你的应用需求。这就是机器学习复杂的地方，他是没有一定之规的。所以数据的探索，实验，非常重要。否则，大家都使用一个路子处理完数据扔给模型就好了，机器学习也太简单了。

但是，因为你用的词汇是“无用”，如果你对“无用”的定义真的准确，那显然应该剔除。（比如你的应用是判断图片是猫还是狗，但是你的数据集里有汽车，那这些数据显然没有用，应该剔除。）

继续加油！：）

liuyubobobo

nifo

在很多真实问题中，PCA 都不适用，因为 PCA 有一个强假设，即线性假设。我只是提及，如果不在乎语义的话，单纯追求高准确率，除了特征提取，降维的方式也值得尝试。这就是为什么我要强调，降维的方式有很多种，比如 t-SNE，比如 ISOMAP。你可以搜索“降维算法”了解一下。另外，应该每个领域都有大量的基于领域知识的特征提取，特征选择等等算法（我接触的为数不多的领域都是如此），搜索这个领域的论文，应该有不少。继续加油。

2021-10-15

共2条回复

Python3入门机器学习经典算法与应用

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

5985 学习 · 2456 问题

查看课程

相似问题

关于决策树 bagging 与随机森林的疑问

回答 1

老师好，求教关于随机森林的一个问题

回答 1

sklearn 随机森林

回答 1

随机森林

回答 1

关于bagging和随机森林的区别

回答 1

打开慕课网App查看更多内容