KMeans是否存在某种极端情况

来源:4-5 Kmeans实战(2)

semipatriot

2024-03-14

Meanshift是均匀的从整个空间选取起点,然后根据密度阶梯逐步收敛,感觉可以应对各种情况.
KMeans的话, 假设还是data.csv里这种三大块的样本分布, 有没有这样一个可能, 虽然我们通过参数告知KMean有三个categories, 但是KMean在选取初始起点的时候,三个点都靠近了某一部分样本密集区间, 也就是在经过多轮密度阶梯收敛以后, 三个起点最终收敛到一起去了.
比如, 三色样本空间图, 三个起点都在很靠近绿色, 那么逐步收敛可能最终都停留在绿色区域, 甚至三点合一了?
毕竟, 真实环境中, 不一定有这么完美的三组分布的数据, 有可能界限是比较模糊的. 所以我的问题就是, 当数据在整个样本空间中分布比较均匀时, 是否存在某种初始中心点选取情况下, 最终的分类结果会极为失真?

写回答

1回答

flare_zhao

2024-04-22

针对kmeans算法,开始因为随机确定中心点的原因,这几个点完全可能离得非常近,但只要不重合,那对应中心点和目标点的距离就是不一样的,这时候总有一个中心点离目标最近,而该目标会归为这个类别,如果说你这时候有3个目标要确定类别,他们都离中心点a最近,我们就把这三个点都归为一类了,这本身也是合理的。当然了,其实任何模型都有其擅长的处理问题和局限性,是有可能存在一些错误归类的情况的,毕竟是无监督学习。就以一个智能体,比如人类来说,你让一个没有任何经验的人对三种很像的花进行聚类,他也不能做到完全准确的。

0
0

Python3入门人工智能 掌握机器学习+深度学习

人工智能基础全方位讲解,构建完整人工智能知识体系,带你入门AI

1946 学习 · 594 问题

查看课程