关于k-means算法实际运用的一些问题
来源:4-2 Kmeans-KNN-Meanshift
慕粉张张张
2021-03-09
老师你好,我有一批用户行为数据包含两个特征,上面是大概绘制的散点图分布,我想通过聚类算法把它分成新老用户两类,目前碰到几个问题没有什么头绪。
第一个问题对于极端值或者异常值处理有点不懂 上面绘制了特征的频数直方图 发现特征分布不太符合高斯分布,如果我想用kmeans聚类分类,比较容易受到极端值或者异常值影响。
第二个问题在于由于这些数据 都没有标签直接用聚类分出来的结果 如何评价分类结果的好坏呢
写回答
1回答
-
flare_zhao
2021-03-11
同学首先做了做这类问题你要先思考,如果是一个人直接给他这两组数据,他能不能直接通过这两类数据就能把类别给分出来,如果人很难做到的话,那你让机器去做其实也是有难度的。
第2个点就是关于寻找异常值的问题,这个在我们课程里面有使用过高斯分布的概率密度函数来剔除异常点这个技术,你可以考虑一下。
第3个点就是评价的问题,如果你的结果里面都是没有标签的,那你要去评价这个模型本身就是很难的,如果要一定要进行评价,那你那你一定要结合起实际场景来去思考这个问题,就是作为一个人他会怎么去评价自己的判断是否是正确的。00
相似问题
工作中的实际应用
回答 1
关于VGG16实例化时的问题
回答 1