对称矩阵summary

机器学习 线性代数基础 | 5.1 最重要的矩阵:对称矩阵

5.1 最重要的矩阵:对称矩阵

在对数据进行降维与压缩的运算处理过程中,有一类矩阵扮演了极其重要的角色,那就是对称矩阵。在线性代数的理论与实践中,我们将对称矩阵称之为“最重要的”矩阵丝毫不显夸张。

对称矩阵除了“自身与转置后的结果相等”这个最浅显、基本的性质外,还拥有许多重要的高级特性。在对角化的运算讨论中,我们会发现实数对称矩阵一定能够对角化,并且能够得到一组标准正交的特征向量。同时,任意一个矩阵A同他自身的转置矩阵img)相乘都能得到一个对称矩阵,我们在本小节中就将重点关注img这类对称矩阵并细致的讨论他的特征值所具有的重要性质,这些基础知识将会为后续的高级主题打下坚实的基础,希望大家不要错过。

5.1.1 对称矩阵基本特性回顾

首先,我们简要的回顾一下在之前的章节中所介绍过的关于对称矩阵的一些重要基本特性:

如果一个矩阵S\的所有数据项都满足img)的相等关系,那么这个矩阵就被称作是一个对称矩阵。通俗的说,一个对称矩阵通过转置操作得到的结果仍然是他自身,即满足:img的运算要求。我们从这里面还可以推断出对阵矩阵S\所蕴含的一个前提条件:他必须是一个方阵。

我们还讲过,有一种获取对称矩阵的简单方法:一个矩阵乘以自己的转置矩阵,即img,其所得到的运算结果必然是一个对称矩阵,关于这个结论的证明方法也非常简单,我们简单看一下:

img

这个等式满足关于矩阵对称的基本定义。

5.1.2 实对称矩阵一定可以对角化

我们在这里只讨论实数范围内的对称矩阵问题。

在上一章的内容里我们讲过,对于一个任意的方阵,如果他的特征值两两不同,那么特征值所对应的特征向量彼此之间满足线性无关,这个方阵可以被对角化。如果方阵有相同的特征值,他很可能存在线性相关的特征向量,那么如果发生了这种情况,该方阵就不能够被对角化了。

但是,这种情况在对称矩阵身上是不会发生的。请大家牢牢记住:对于任意一个实数对称矩阵而言,他都一定可以被对角化。换句话说,对于一个对称矩阵,无论他的特征值是否重复,他的特征向量都一定满足线性无关。

在这里,具体的证明过程我们不展开,大家有兴趣可以查阅相关的资料。

5.1.3 特征向量标准正交

任意一个实对称矩阵都可以获得一组标准正交的特征向量。这可以说是对称矩阵里我认为最好的一个性质了,在这里我们用一个简单的方法来描述一下这个性质以及他的推导证明过程。

首先,实对称矩阵S\一定能够被对角化,可以被写成img)的形式,其中对角矩阵img的各元素一定均由实数构成,并且最为关键的一点是任何一个对称矩阵分解得到的特征向量矩阵都可以是标准正交矩阵。

为什么这么说呢,我们可以简单的看一个等式推导过程:

首先对矩阵S\进行矩阵分解,得到:img)。由于矩阵S\是一个对称矩阵,满足img的关系,于是有:

img

那么,想要使得上面的等式相等,我们就需要满足对应位置上的元素相等,即:img),对此我们再进一步,就可以将其整理成img)的漂亮形式。这恰恰说明了,我们此时获取的特征向量之间是满足标准正交关系的,我们可以将X\换记作正交矩阵的符号Q\,同时结合img)这个基本特性,我们就可以把实对称矩阵的对角化过程变换成更好的形式,写作:img

5.1.4 对称矩阵的分解形式

将对称矩阵S\分解成标准正交的特征向量只是其中的一种形式而已,由定义式img我们可以得知,显然,特征向量是一个方向上的向量集合,不一定非得满足长度为1的要求,但是我们仍然可以通过直觉感受到一个事实,那就是一旦把特征向量都设置为单位向量,那么会在实践的过程中收获很多简化和美好。这个在后面的几节内容里,我们会不断的感受到由此带来的巨大好处。

此时,我们知道了对称矩阵S\一定可以得到由一组标准正交特征向量所构成的特征矩阵Q\。即,矩阵Q\可以表示成:img的形式, 我们进一步将等式img)进行展开,可以得到img的完整相乘形式。

这个式子是非常重要的,接下来我们进一步将其做展开运算,将矩阵S\写成一组矩阵相加的形式,你就会发现他的精彩之处:

img

在这一组标准正交向量当中,每一个img相乘所得到的结果项都是一个秩为1并且与矩阵S\维数相等的方阵。同时他还满足方阵与方阵之间相乘的结果为0这个性质,也可以广义的理解为方阵之间满足“正交”。

最终,任意一个n阶对称矩阵S\都可以分解成n个秩1方阵乘以各自权重系数img然后相加的结果。

5.1.5 img)与img的秩

在本书前面的章节中,我们介绍过这样一个结论,对于任意一个m×n形状的矩阵A\,他的列向量中线性无关向量的个数等于其行向量中线性无关向量的个数。

换句话说,也就是任意矩阵的行秩等于列秩,即满足:img。这个结论可以从线性方程组消元化简的角度去思考,这样大家就会很容易明白了。

我们再看看矩阵A\img的秩之间的关系:

我们从零空间的角度入手去理解这个问题。即,如果方程Ax=0\和方程img)是同解方程,那么他们就拥有相同的零空间,由于A\img这两个矩阵的列的个数相等,都为 n,因此,就可以推断出他们的列空间的维数相同,均为:n***−N(A)***,换句话说,也就能够推出二者的秩相等。

好的,那就让我们按照这个思路来推进:

首先,如果满足方程Ax=0\成立,方程两边同时乘以转置矩阵img),很明显,等式img)同样能够成立。因此,我们可以说如果x\是方程Ax=0\的解,则能够推得出x\也一定是方程img的解。

那么反过来呢,如果方程img)成立,我们将方程两边同时乘以向量img),即方程img)当然也一定能够成立,我们对这个等式稍微整理一下,就可以得到img)这个更加简洁的形式,从中可以看出一定能够满足Ax=0\成立。此时,我们可以说如果x\是方程img的解,那么他一定也是方程Ax=0\的解。

于是,这个问题我们就说清楚了:方程img和方程img)是一对同解的方程,矩阵A\和矩阵img)这两个矩阵拥有相同的零空间,因此我们就解释清楚了矩阵A\img秩相等的问题。

那么同样的,我们由此不难发现也一定有矩阵img)和矩阵img)的秩相等。那么这下好了,在img这个相等关系的纽带连接下,我们就有了以下这个结论:

img

从等式中可以看出,他们的秩都是相等的。

5.1.6 img对称矩阵的正定性描述

最后,我们来聚焦一下对称矩阵特征值的问题,我们先介绍一组概念:如果一个矩阵的所有特征值都为正,我们称他是“正定的”矩阵,如果均为非负(即,最小的特征值为0),相当于结论上稍稍弱了一些,我们称之为“半正定的”矩阵,如果他含有负的特征值,那么显然,他是非正定的。

那么换句话说,对于一个对称矩阵而言,从特征值的正负性角度来看的话,他一定是正定、半正定或非正定的其中一种。

就正定性而言,一般的对称矩阵其实没有太多的特殊性,但是由任意矩阵A\乘以他的转置矩阵img)得到的对称矩阵img,则具备非常好的特殊性质。即,他的特征值一定是非负的,换句话说,他至少是半正定的。

我们简单的说明一下为什么。

我们还是从特征向量的定义式子img)入手进行分析,我们将等式两边同时乘以向量img),得到img)这个新等式,由于特征向量必须非零,所以必然存在有img)的不等关系。换句话说,此时等式img)左侧的正负性就决定了右侧img的正负性。

那么问题就来了,如果要满足正定性(或半正定性)的要求,那么就一定要满足所有的img)都为正(或非负)的要求,等价于img)的计算结果恒为正(或非负),这在img的条件下能够保证成立么?我们将其代入到等式中发现,这个是可以保证成立的:

img

此时,如果矩阵A\的各列满足线性无关,由于向量x\是非零的,因此就能够保证所有的Ax***≠0***都成立,那么就有img)恒成立。此时,对称矩阵img)所有的特征值都满足img,因此矩阵是正定的。

如果矩阵A\的各列线性相关,那么也就是说有x≠0而Ax=0\的情况存在,此时就只能保证img)(存在等于零的可能性),对称矩阵img)就存在值为0的特征值img。因此,此时的矩阵是半正定的。

那么此时就可以继续挖掘出结论:实对称矩阵中非零特征值的个数等于该矩阵的秩。这个结论非常明显:因为矩阵A\与相似对角化后的矩阵img)拥有相同的特征值,同时由于相似性可知:这两个矩阵的秩相等。而img最容易看出非零特征值的个数和秩的相等关系,从而结论得证。

我们总结一下,对称矩阵img的所有特征值都满足非负性,特别的,如果矩阵A\的列向量满足线性无关,则该矩阵是一个正定矩阵,其特征值均为正。

5.1.7 img)与img的特征值

最后,我们来看看img)和img)这两个对称矩阵的特征值满足什么样的关系。我告诉大家,这个问题的结论非常完美:img)和img拥有完全一样的非零特征值。

我们从两个方向入手进行证明:说明如果img)是矩阵img)的特征值,那么他也是矩阵img)的特征值;反过来,如果img)是矩阵img)的特征值,那么他同样也是矩阵img的特征值。

我们假设矩阵A\的维度是m×n,矩阵img)的一个非零特征值是img),对应的特征向量是x\,那么依据定义有:img),我们将等式两边同时乘以矩阵img),即满足:img)的相等关系,我们稍作整理就可以得到一个漂亮的等式:img),于是我们看出,矩阵img)的特征值仍然是img),对应的特征向量为img

那么反过来呢,证明过程也是非常简单的,已知矩阵img)的特征值img)和对应的特征向量y\,依据定义有:img)满足等式成立,两边同时乘以矩阵A\,可以得到:img)的相等关系,也是对其稍作整理,就有:img),这个过程同样说明了,如果img)是img)的特征值,那么他也一定是img的特征值。

这里,我们就给大家解释清了:img)和img这两个对称矩阵拥有完全相同的非负特征值。

5.1.8 对称矩阵的性质总结

在这一节里,我们讲解了对称矩阵的诸多重要性质和漂亮结论。他们不是零散的概念,而是可以构成一个知识网络。我在本节的最后给大家串联一下这些知识点,大家共同思考一下里面的内在关联:

对于任意的一个m×n形状的矩阵A,有如下性质:

● 矩阵A和转置矩阵img)img)相乘的结果img)img)和img)img都是对称矩阵;

● 矩阵img)img)和矩阵img)img都能够被对角化,且都可以通过矩阵分解,获得一组标准正交的特征向量;

● 矩阵img)img)和矩阵img)img)分别是n阶和m阶的方阵,一般情况下他们的维度都是不等的,但是他们的秩却一定满足相等关系,即满足:img)img的相等关系;

● 对于矩阵img)img而言,他的特征值一定都是非负的,特别的,如果矩阵A的列向量满足线性无关,那么他的特征值全部为正,即为正定矩阵;

● 矩阵img)img)和矩阵img)img拥有完全相同的非零特征值,非零特征值的个数与矩阵A的秩相等。

熟悉、掌握这五个重要结论,将会为本章后面几节的内容扫清最大的数学障碍,帮助大家更好的掌握相关的高级内容。