【Python讲线代】S03E14深入浅出SVD(上)

1.再谈特征值分解的几何意义

在上一节,我们讲了通过特征值分解(EVD)的方法对样本的特征提取主成分,从而实现数据的降维。在介绍奇异值分解(SVD)之前,我们再着重挖掘一下特征值分解的几何意义。

1.1.分解过程回顾

我们最开始获得的是一组原始的 $m\times n$ 数据样本矩阵 $A$ ,其中,$m$ 表示特征的个数, $n$ 表示样本的个数。通过与自身转置相乘:$AA^T$ 得到了样本特征的 $m$ 阶协方差矩阵 $C$ ,通过求取协方差矩阵 $C$ 的一组标准正交特征向量 $q_1,q_2,...q_m$ 以及对应的特征值 $\lambda_1,\lambda_2,...,\lambda_m$。

我们这里处理的就是协方差矩阵 $C$,对 $C$ 进行特征值分解,将矩阵分解成了 $C=\begin{bmatrix} q_1&q_2&...&q_m\end{bmatrix}\begin{bmatrix} \lambda_1&&&\\&\lambda_2&&\\&&...&\\&&&\lambda_m\end{bmatrix}\begin{bmatrix} q_1^T\\q_2^T\\...\\q_m^T\end{bmatrix}$。

最终,我们选取前 $k$ 个特征向量构成数据压缩矩阵 $P$ 的各行,通过 $PA$ 达到数据压缩的目的。

1.2.几何意义剖析

以上是回顾上文的内容,不难发现,为了完成矩阵的特征值分解,最最关键还是要回归到这个基本性质上来:$Cq_i=\lambda_i q_i$。

我们为什么又提这个呢?结合主成分分析的推导过程我们知道,协方差矩阵 $C$ 之所以能够分解,是因为在原始空间 $R^m$ 中,我们原本默认是用 $e_1,e_2,...,e_m$ 这组默认基向量来表示我们空间中的任意一个向量 $a$,如果我们采用基变换,将 $a$ 用 $q_1,q_2,...,q_m$ 这组标准正交基来表示后,$Ca$ 的乘法运算就变得很简单了,只需要在各个基向量的方向上对应伸长 $\lambda_i$ 倍即可,如图1所示:

图1.目标空间中特征向量对应伸长$\lambda_i$倍

图1.目标空间中特征向量对应伸长$\lambda_i$倍

实际上,我们之前也重点分析过,因为协方差矩阵具备对称性、正定性,保证了他可以被对角化,并且特征值一定为正,从而使得特征值分解的过程一定能够顺利完成。

因此利用特征值分解进行主成分分析,核心就是获取协方差矩阵,然后对其进行矩阵分解,获得一组特征值和其对应的方向。

2.从 $Av=\sigma u$ 入手奇异值分解

但是,如果我们不进行协方差矩阵 $C$ 的求取,绕开它直接对原始的数据采样矩阵 $A$ 进行矩阵分解,从而进行降维操作,行不行?

如果继续沿用上面的办法,显然是不行的,特征值分解对矩阵的要求很严,首先得是一个方阵,其次在方阵的基础上,还得满足可对角化的要求。但是原始的 $m\times n$ 数据采样矩阵 $A$ 连方阵这个最基本的条件都不满足,是根本无法进行特征值分解的。

找不到类似 $Ap=\lambda p$ 的核心等式了,岂不是无能为力了?怎料,天无绝人之路,这里,我首先给大家介绍一个对于任意 $m\times n$ 矩阵的更具普遍意义的一般性质:

对于一个 $m\times n$,秩为 $r$ 的矩阵 $A$,这里我们暂且假设 $m> n$,于是就有 $r \leq n < m$ 的不等关系。我们在 $R^n$ 空间中一定可以找到一组标准正交向量 $v_1,v_2,...v_n$,在 $R^m$ 空间中一定可以找到另一组标准正交向量 $u_1,u_2,...,u_m$,使之满足 $n$ 组相等关系: $Av_i=\sigma_iu_i$,其中($i$ 取 $1$~$n$)。

$Av_i=\sigma_iu_i$,这个等式非常神奇,我们仔细的揭开里面的迷雾,展现他的精彩之处:矩阵 $A$ 是一个 $m \times n$ 的矩阵,他所表示的线性变换是将 $n$ 维原空间中的向量映射到更高维的 $m$ 维目标空间中,而 $Av_i=\sigma_iu_i$ 这个等式意味着,在原空间中找到一组新的标准正交向量 $\begin{bmatrix} v_1&v_2&...&v_n\end{bmatrix}$, 在目标空间中存在着对应的一组标准正交向量 $\begin{bmatrix} u_1&u_2&...&u_n\end{bmatrix}$ ,此时 $v_i$ 与 $u_i$ 线性无关。当矩阵 $A$ 作用在原空间上的某个基向量 $v_i$ 上时,其线性变换的结果就是:对应在目标空间中的 $u_i$ 向量沿着自身方向伸长 $\sigma_i$ 倍,并且任意一对 $(v_i,u_i)$ 向量都满足这种关系(显然特征值分解是这里的一种特殊情况,即两组标准正交基向量相等)。如图2所示:

图2.原空间和目标空间选取了两组不同的标准正交基

图2.原空间和目标空间选取了两组不同的标准正交基

top Created with Sketch.