关于k-means算法实际运用的一些问题

来源：4-2 Kmeans-KNN-Meanshift

慕粉张张张

2021-03-09

图片描述
老师你好，我有一批用户行为数据包含两个特征，上面是大概绘制的散点图分布，我想通过聚类算法把它分成新老用户两类，目前碰到几个问题没有什么头绪。

图片描述

第一个问题对于极端值或者异常值处理有点不懂上面绘制了特征的频数直方图发现特征分布不太符合高斯分布，如果我想用kmeans聚类分类，比较容易受到极端值或者异常值影响。

图片描述

第二个问题在于由于这些数据都没有标签直接用聚类分出来的结果如何评价分类结果的好坏呢

写回答

1回答

flare_zhao

2021-03-11

同学首先做了做这类问题你要先思考，如果是一个人直接给他这两组数据，他能不能直接通过这两类数据就能把类别给分出来，如果人很难做到的话，那你让机器去做其实也是有难度的。
第2个点就是关于寻找异常值的问题，这个在我们课程里面有使用过高斯分布的概率密度函数来剔除异常点这个技术，你可以考虑一下。
第3个点就是评价的问题，如果你的结果里面都是没有标签的，那你要去评价这个模型本身就是很难的，如果要一定要进行评价，那你那你一定要结合起实际场景来去思考这个问题，就是作为一个人他会怎么去评价自己的判断是否是正确的。

Python3入门人工智能掌握机器学习+深度学习

人工智能基础全方位讲解，构建完整人工智能知识体系，带你入门AI

2103 学习 · 615 问题

查看课程

相似问题

工作中的实际应用

回答 1

关于VGG16实例化时的问题

回答 1

老师问一下不是数据预测吗？为什么感觉还是数据拟合呢？

回答 1

在这个例子中RNN模型做预测的实用性是什么

回答 1

关于 mlp.predict_classes 已弃用的问题

回答 2

打开慕课网App查看更多内容