关于遍历和切分特征的问题
来源:12-3 使用信息熵寻找最优划分

宝慕林4453330
2020-07-10
老师,你好,您的如下两行代码中:
sorted_index = np.argsort(X[:,d])
for i in range(1, len(X))
首先对数据进行了排序,然后对数据个数进行了统计。
我的问题是:1)如果特征是类别型的,还需要排序吗?类别型的特征是如何切分的呢?; 2)如果特征是连续型的,那么还能用len(X)进行统计吗?这种连续型的特征,遍历的次数会不会特别大呢?
写回答
1回答
-
1
在机器学习的底层,只有数字。回忆一下我们最初介绍 numpy 的矩阵,也只能存储数字。所以,对于类别型,需要转成数字。
对于类别型转成数字的方式,可以参考这里:http://coding.imooc.com/learn/questiondetail/65635.html
注意,上面的问答回答了如果类别特征没有大小关系,应该如何处理。但有的类别特征是有大小关系的。比如信用等级的:低,中,高,此时直接映射成 0 1 2 即可。
2
for i in range(1, len(X)) 这句话和特征是连续还是不连续没有关系,和样本数量的大小有关系。我们在遍历每一个样本,尝试以这个样本作为分割点。
继续加油!:)
112020-07-11
相似问题