场景描述 在机器学习领域中,我们对原始数据进行特征提取,有时会得到比较高维的特征向量 。 在这些向量所处的高维空间中 , 包含很多的冗余和噪声 。我们希望通过降维的方式来 寻找数据内部的特性 , 从而提升特征表达能力 ,降低训练复杂度 。 主成分分析( Principal Components Analys is, PCA )作为降维中最经典的方法,至今已有 100 多年的历史, 它属于一种线性、非监督、全局的障维算法,是面试中经常被问到的问题 。
知识点 PCA 线性代数
问题 如何定义主成分分析?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何对PCA问题进行求解?
分析与解答
场景描述 上一节介绍了从最大方差的角度解释 PCA 的原理、 目标函数和求解方法。 本节将通过最小平方误差的思路对 PCA 进行推导 。
知识点 线性代数,最小平方误差
问题 PCA 求解的其实是最佳投影方向 ,即一条直线,这与数学中线性回归的目标不谋而合,能否用线性回归的的角度定义PCA的目标并求解相应的问题?
分析与解答
场景描述
问题 对于具有类别标签的数据,应当如何设计目标函数使得降维的过程不损失类别信息?在这种目标下,应当如何进行求解?
分析与解答
场景描述** 同样作为线性降维方法, PCA 是有监督的降维算法,而 LDA 是无监督的降维算法 。 虽然在原理或应用方面二者有一定的区别,但是从这两种方法的数学本质出发,我们不难发现二者有很多共通的特性 。
问题 LDA 和 PCA 作为经典的降维算法,如何从应用的角度分析其原理的异同?从数学推导的角度,两种降维算法在目标函数上有何区别?
分析与解答