训练数据集中的一些疑惑?
来源:4-3 训练数据集,测试数据集
wen_0013
2020-01-28
输入正文
课程中说到 把数据乱序之后 再把数据分成两部分,一个是训练数据集 ,一个是测试数据集 ,问题是,乱序之后
x 和y 数据之间的对应关系就和原来的不一样 ? 这里我是想不通
写回答
1回答
-
liuyubobobo
2020-01-29
一样的。
我们的乱序方式,是随机选择了一组索引作为训练数据的索引,叫 train_indexes,又随机选择了一组索引,作为测试数据集的索引,叫 test_indexes。
之后,我们使用同样的一组训练索引,在 X 和 y 中取值。由于索引是相同的,保证了取出的 X_train 和 y_train 是对应的。
同理,我们使用同样的一组测试索引,在 X 和 y 中取值。由于索引是相同的,保证了取出的 X_test 和 y_test 是对应的。
根据上面的解释,再理解一下我们整个 train_test_split 代码的逻辑,每一行都在做什么?
如果有必要,使用一个小的数据,比如就十个数据点,然后实际看一看,最后的结果是不是对应的?为什么能保持这个对应?
继续加油!:)
022020-01-29
相似问题