关于排序和取平均值
来源:12-3 使用信息熵寻找最优划分
其实我是至尊贾
2020-07-21
老师好,有以下两个问题:
1 既然是对一个特征下的所有样本进行遍历,为啥还需要排序?
2 为什么需要对前后两个样本取均值再做比较?
以上两个问题可能是有交叉的。
我理解是,我们只需要对每一列数据中的每个样本进行一个遍历不就可以发现阈值了吗。。。
写回答
1回答
-
我们找的阈值不是在某个样本上,而是在两个样本之间。我们不希望决策平面穿过一个样本,否则的话,就存在这个样本到底属于哪一边的问题。所以,我们每次找到两个样本,对这两个样本的相应的属性值取均值。
比如,某个特征,样本的值为 1, 3, 5, 7, 11 (五个样本),我们尝试的阈值取值是 2, 4, 6, 9;而不是 1, 2, 5, 7, 11。
但实际上,因为样本的取值可能不是顺序的,比如可能是 1, 5, 11, 3, 7。针对这组数据,我们怎么找到分割两边的阈值?只有排序以后,才能找到。
你可以尝试一下,不排序,看看针对课程中的数据,结果会是怎样的?
使用你的“每个样本进行一个遍历”的想法实际模拟一下,看看结果是怎样的?
继续加油!:)
40
相似问题