关于遍历和切分特征的问题

来源:12-3 使用信息熵寻找最优划分

宝慕林4453330

2020-07-10

老师,你好,您的如下两行代码中:
sorted_index = np.argsort(X[:,d])
for i in range(1, len(X))

首先对数据进行了排序,然后对数据个数进行了统计。
我的问题是:1)如果特征是类别型的,还需要排序吗?类别型的特征是如何切分的呢?; 2)如果特征是连续型的,那么还能用len(X)进行统计吗?这种连续型的特征,遍历的次数会不会特别大呢?

写回答

1回答

liuyubobobo

2020-07-11

1

在机器学习的底层,只有数字。回忆一下我们最初介绍 numpy 的矩阵,也只能存储数字。所以,对于类别型,需要转成数字。


对于类别型转成数字的方式,可以参考这里:http://coding.imooc.com/learn/questiondetail/65635.html


注意,上面的问答回答了如果类别特征没有大小关系,应该如何处理。但有的类别特征是有大小关系的。比如信用等级的:低,中,高,此时直接映射成 0 1 2 即可。


for i in range(1, len(X)) 这句话和特征是连续还是不连续没有关系,和样本数量的大小有关系。我们在遍历每一个样本,尝试以这个样本作为分割点。


继续加油!:)


1
1
宝慕林4453330
非常感谢!
2020-07-11
共1条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程