关于特征变换的时机
来源:7-4 非监督评估

迷途20191129
2020-12-01
途索老师,对于特征变换的时机我想请教如下几点:
1、如果只有训练样本,是应该先做train_test_split还是先做特征的变换(例如MinMaxScaler)后再进行数据集的切分?
2、如果我同时还有一份预测样本,此时对预测样本做数据清洗的原则如何把握呢?例如对预测样本用均值填补缺失值的话,我是否应该用训练集的均值去填补这个测试集的缺失值呢?
写回答
1回答
-
途索
2020-12-05
同学你好,
1、应该先minmax,再split;
2、举例来说,如果训练样本minmax时,min是1,max是3,预测样本min是1.5,max是2.5,预测归一化还是要按照训练样本的特征处理方式处理(min1,max3)。
这么做的原因,是在预测时,应该只把训练样本得到的处理方法带入,而不应该带入预测样本的整体信息。所以以上替换异常值,也要用训练样本的均值。00
相似问题