【机器学习】032--变化中的不变:特征值与 特征向量

Posted by ShawnD on August 30, 2020

⼏何意义回顾

我们简要的再回顾⼀下$Ap = \lambda p$这个核⼼表达式:从空间⼏何意义的⻆度来理解,对于⼀个⽅阵 A,若 p 是的特征向量, $\lambda$是对应的特征值,则意味着向量 p 在⽅阵 A 的作⽤下,的空间变换就是其⻓度沿着向量的⽅向进⾏$\lambda$倍的伸缩。

所表达的⼏何意义简单、明晰。⼀般来说,⼀个向量在某个矩阵的作⽤下,其空间变换反映为⻓度和⽅向的改变:即旋转、 平移和拉伸,有些情况下甚⾄连维度都会发⽣变化,而这⾥的特殊之处就在于,矩阵作⽤于它的特征向量,仅仅只有⻓度发 ⽣了改变。

基本⼏何性质

我们针对性的讨论⼀些有意思的特殊情况:

  1. 特征值为 0 的情况。如果⼀个⽅阵 A 的某个特征值为$\lambda = 0$ ,那么当该矩阵作⽤在其对应的特征向量 p 上时,就有:Ap=0p=0。这意味着,该矩阵的零空间是⾮零向量 p,该矩阵表⽰的是空间压缩变换。 依据之前学习的有关知识我们知道,这就是⼀个不可逆的矩阵,即奇异矩阵。
  2. 对⻆矩阵的情况。对⻆矩阵$diag(1, 2, 3)$ ,其特征值就是 1、2、3,对应的特征向量即为:
\[\begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix}, \begin{bmatrix}0 \\ 1 \\ 0 \end{bmatrix}, \begin{bmatrix}0 \\ 0 \\ 1\end{bmatrix}\]
  1. 相似矩阵的情况。如果矩阵 A 的特征向量为 p,特征值为$\lambda$ ,那么它的相似矩阵$S^{-1}AS$的特征值不变,仍为$\lambda$ ,特征向量变为了$S^{-1}p$ 。这个性质的验证⾮常简单:
\[(S^{-1}AS)(S^{-1}p) = S^{-1}ASS^{-1}p = S^{-1}Ap = S^{-1}\lambda p = \lambda(S^{-1}p)\]

特征向量的线性⽆关性讨论

  1. 如果⼀个 n 阶⽅阵 A,有 n 个两两不相同的特征值$\lambda_1, \lambda_2, …, \lambda_n$ ,那么这些特征值所对应的特征向量$p_1, p_2, …, p_n$线性⽆关。

我们可以⽤反证法进⾏简单的证明:

我们假设$\lambda_1 \neq \lambda_2$,而其对应的特征向量$p_1$和$p_2$线性相关,即$p_1 = \alpha p_2$,那么, $Ap_1 = \alpha A p_2 = \alpha A p_2 = \alpha \lambda_2 p_2 = \lambda_2 p_1$;同时我们知道$Ap_1 = \lambda_1 p_1$ ,那么就得满⾜$\lambda_1 p_1 = \lambda_2 p_1$ ,由于$p_1 \neq 0$ ,则必须要求$\lambda_1 = \lambda_2$ ,而这,与我们的假设是显然⽭盾的

我们举三个向量的例⼦看看,假设$\lambda_1 \neq \lambda_2 \neq \lambda_3$ ,而却有 对应的三个特征向量线性相关,即$p_1 = \alpha p_2 + \beta p_3$,其中, $\alpha, \beta \neq 0$(即$p_1$和$p_2$之间以及$p_1$和$p_3$之间是线性⽆关 的)。

两边同时乘以矩阵 A:

\[Ap_1 = A(\alpha_2 + \beta p_3) = \alpha Ap_2 + \beta A p_3\]

进一步处理有:

\[Ap_1 = A(\alpha_2 + \beta p_3)\]

代入等式$\alpha p_2 = p_1 - \beta p_3$, 最终得到等式:

\[(\lambda_1 - \lambda_2)p_1 + (\lambda_2 - \lambda_3)\beta p_3) = 0\]

由于$p_1$和$p_3$是线性无关的, 要满足等式成立, 则要求$\lambda_1 = \lambda_2, \lambda_2 = \lambda_3$。显然与假设矛盾。

  1. 接着上⾯的推理,如果 n 阶⽅阵 A 有 n 个特征值:$\lambda_1, \lambda_2, …, \lambda)n$ ,且其两两不同,那么其特征向量$p_1, p_2, …, p_n$依次排列所组成的⽅阵 P 就是可逆的,依据上⼀节所讲的内容,通过$P^{-1}AP = \Lambda$可以将其对⻆化,其中$\Lambda = diag(\lambda_1, \lambda_2, …, \lambda_n)$ 。

  2. 由此我们得知:不同的特征值肯定对应着线性⽆关的特征向量,但是不能说相同的两个特征值对应的特征向量就⼀定线性 相关,⽐如我们最熟悉的单位对⻆矩阵$diag(1, 1, 1)$ ,它的三个特征值都是 1,但是其特征向量分别是:

\[\begin{bmatrix}1 \\ 0 \\ 0 \end{bmatrix}, \begin{bmatrix}0 \\ 1 \\ 0 \end{bmatrix}, \begin{bmatrix}0 \\ 0 \\ 1 \end{bmatrix}\]