表使样本点间距增大的方法应该有很多吧,把样本投影到x轴然后在延展x轴的方法会不会更好实现呢?

来源:7-1 什么是PCA

猫多余

2023-03-08

主成分分析法不应该是降维吗?开始我以为PCA是通过把有线性关系或非线性关系的几个特征用一个特征表示,达到降维的目的。为什么要找样本点间距最大的那条直线呢?使样本点间距增大的方法应该有很多吧,把样本投影到x轴然后在延展x轴的方法会不会更好实现呢?
对于为啥要让样本的方差最大化,我的理解是,使方差最大化可以尽可能的保留原始数据之间的额关系,减少特征与特征之间信息的丢失?

写回答

1回答

liuyubobobo

2023-03-09

主成分分析法不应该是降维吗?

主成分分析法就是在降维。


把样本投影到x轴然后在延展x轴的方法会不会更好实现呢?

如这一小节的介绍,更好实现不意味着“效果更好”。在计算机科学中,更好实现从来都不是目标。


为什么要找样本点间距最大的那条直线呢?

因为样本点间距最大的那条线最大程度的保留了样本之间的信息,效果最好。可以参考这里:https://coding.imooc.com/learn/questiondetail/vZnjEY7V23eP72Wd.html 和 

https://coding.imooc.com/learn/questiondetail/36607.html


开始我以为PCA是通过把有线性关系或非线性关系的几个特征用一个特征表示,达到降维的目的。

这是理解主成分分析非常非常重要的一点:主成分分析不是“找几个重要特征”进行降维,不是做“特征选择”。PCA 降维后的结果,新的维度的语义会消失,就是因为这个原因。可以参考这里:https://coding.imooc.com/learn/questiondetail/mg5J7RPqlzB68Zw1.html


对于为啥要让样本的方差最大化,我的理解是,使方差最大化可以尽可能的保留原始数据之间的额关系,减少特征与特征之间信息的丢失?

完全正确。


继续加油!:)

0
3
猫多余
回复
liuyubobobo
懂了懂了,谢谢老师!:)
2023-03-09
共3条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5893 学习 · 2454 问题

查看课程