关于特征变换的时机

来源:7-4 非监督评估

迷途20191129

2020-12-01

途索老师,对于特征变换的时机我想请教如下几点:
1、如果只有训练样本,是应该先做train_test_split还是先做特征的变换(例如MinMaxScaler)后再进行数据集的切分?
2、如果我同时还有一份预测样本,此时对预测样本做数据清洗的原则如何把握呢?例如对预测样本用均值填补缺失值的话,我是否应该用训练集的均值去填补这个测试集的缺失值呢?

写回答

1回答

途索

2020-12-05

同学你好,
1、应该先minmax,再split;
2、举例来说,如果训练样本minmax时,min是1,max是3,预测样本min是1.5,max是2.5,预测归一化还是要按照训练样本的特征处理方式处理(min1,max3)。
这么做的原因,是在预测时,应该只把训练样本得到的处理方法带入,而不应该带入预测样本的整体信息。所以以上替换异常值,也要用训练样本的均值。

0
0

Python3数据分析与挖掘建模实战,快速胜任数据分析师

快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!

2204 学习 · 489 问题

查看课程