train_test_split索引问题

来源:3-9 Numpy中的arg运算

NTeam6

2021-02-23

您好,我想请问一下,如果我用train_test_split分割数据集,我想知道分割出来的X_test中的元素在X中的索引应该怎样实现?

写回答

2回答

liuyubobobo

2021-02-24

如果已经分割完了,无法找到原数据的索引。


最简单的实现方法,是先使用 train_test_split 对索引做划分,然后根据索引获得训练数据和测试数据,这样你也就知道相关索引了。


一个简单的例子:

//img.mukewang.com/szimg/60353a5309e6a70609910835.jpg


另外,使用 pandas 的 dataframe 也可以保留索引,因为 pandas 的 dataframe 在建立的时候自动为每一行数据加上了索引。不过因为 pandas 在这个课程中没有介绍,如果你感兴趣的话可以系统学习一下 pandas 的使用方式。


继续加油!:)

0
1
NTeam6
非常感谢!
2021-03-05
共1条回复

NTeam6

提问者

2021-02-23

我想了一种方法,先把标签y做成和X容量相同的1,2,3,4,5……这样的有序数组,然后用同样的随机种子做train_test_split,这样分割出来的y就是测试数据集在原数据集中的位置序号,请问还有什么更简便的方法吗

0
0

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5839 学习 · 2437 问题

查看课程