1、矢量矢量(拉丁语: Vector)是数学、物理学和工程科学等多个自然科学中的基本概念,指一个同时具有大小和方向的几何对象,因常常以箭头符号标示以区别于其它量而得名。直观上,矢量通常被标示为一个带箭头的线段(如右图)。线段的长度可以表示矢量的大小,而矢量的方向也就是箭头所指的方向。物理学中的位移、速度、力、动量、磁矩、电流密度等,都是矢量。与矢量概念相对的是只有大小而没有方向的标量。在数学中,矢量也常称为向量,即有方向的量。并采用更为抽象的矢量空间(也称为线性空间)来定义,而定义具有物理意义上的大小和方向的向量概念则需要引进了范数和内积的欧几里得空间表示方法在文字表述时,如果已知矢量的起点和终点
2、分别是 A 和 B,那么这个矢量可以记为 。如果是为了和其他量区别,则在符号顶上加上箭头表示矢量,如 。注:过往在排版过程中,要在字母上加上箭头比较困难,不像手写那么容易。所以在以往的书本印刷中,矢量多数会用粗体字母表示,如 ,但这样做却增加了阅读困难,因为要区分是否粗体字有时不容易,例如 和 肉眼看很易混淆。但随着时代和技术进步,在加上电脑辅助排版,为求清楚明确起见,书籍中用粗体字母代表矢量的情况也越来越少了。矢量的直观图形表示则一般使用带箭头的线段。而遇到某些特殊情况需要表示与记载纸面垂直的矢量,则会使用圆圈中打叉或打点的方式来表示(如右图)。圆圈中带点的记号()表示由纸下方指向纸上方的矢
3、量,而圆圈中带叉的记号()则表示由纸的上方指向纸下方的矢量。由于这种记号不表示矢量的大小,所以必须时需要在旁边或其它地方另外注明。在直角坐标系中,定义有若干个特殊的基本矢量,其它的矢量可以通过这些基本矢量来表示。在常见的三维空间直角坐标系 Oxyz 里,基本矢量就是以横轴(Ox)、竖轴(Oy) 以及纵轴(Oz ) 为方向的三个单位矢量 、 、 。这三个矢量取好以后,其它的矢量就可以通过三元数组来表示,因为它们可以表示成一定倍数的三个基本矢量的总合。比如说一个标示为(2,1, 3)的矢量就是 2 个矢量 加上 1 个矢量 加上 3 个矢量 得到的矢量。在进行矩阵运算时,矢量也可以表达成列矢量和行
4、矢量(如下例)。简介物理学和一般的几何学中涉及的矢量概念严格意义上应当被称为欧几里得矢量或几何矢量,因为它们的定义是建立在通常所说的欧几里得空间上的。按照定义,欧几里得矢量由大小和方向构成。在线性代数中,矢量是所谓矢量空间中的基本构成元素。矢量空间是基于物理学或几何学中的空间概念而形成的一个抽象概念,是满足一系列法则的元素的集合。欧几里得空间便是线性空间的一种。矢量空间中的元素就可以被称为矢量,而欧几里得矢量则是特指欧几里得空间中的矢量。在一些上下文中,会假设矢量有确定的起点和终点,当起点和终点改变后,构成的矢量就不再是原来的矢量。这样的矢量也被称为固定矢量。在另一些时候,会认为矢量的起点和终
5、点并不那么重要。两个起点不一样的矢量,只要大小相等,方向相同,就可以称为是同一个矢量。这样的矢量被称为自由矢量。在数学中,一般只研究自由矢量。一些文献中会提到矢量空间带有一个特定的原点,这时可能会默认矢量的起点是原点。 1基本性质矢量的大小是相对的,在有需要时,会规定单位矢量,以其长度作为 1。每个方向上都有一个单位矢量 2。矢量之间可以如数字一样进行运算。常见的矢量运算有:加法,减法,数乘矢量以及矢量之间的乘法(数量积和矢量积)。加法与减法矢量的加法满足平行四边形法则和三角形法则。具体地,两个矢量 和 相加,得到的是另一个矢量。这个矢量可以表示为 和 的起点重合后,以它们为邻边构成的平行四边
6、形的一条对角线(以共同的起点为起点的那一条,见下图左),或者表示为将 的终点和 的起点重合后,从 的起点指向 的终点的矢量:两个矢量 和 的相减,则可以看成是矢量 加上一个与 大小相等,方向相反的矢量。又或者, 和 的相减得到的矢量可以表示为 和 的起点重合后,从 的终点指向 的终点的矢量:当这两个矢量数值、方向都不同,基本矢量 时,矢量和计算为并且有如下的不等关系:此外,矢量的加法也满足交换律和结合律。 2反矢量和零矢量与数字一样,一个矢量也有反矢量。一个矢量 的反矢量与它大小相等,但方向相反,一般记作 。如果矢量 是矢量 的反矢量,那么 也是 的反矢量 2。零矢量是指大小为零的矢量。零矢量
7、实质上是起点与终点重合的矢量,它的方向是不确定的,可以根据需要假设其方向。两个反矢量的和就是零矢量 2。标量乘法一个标量 k 和一个矢量 之间可以做乘法,得出的结果是另一个与 方向相同或相反,大小为 的大小的k倍的矢量,可以记成 2。-1 乘以任意矢量会得到它的反矢量,0 乘以任何矢量都会得到零矢量 。数量积主条目:数量积数量积也叫点积、内积,它是矢量与矢量的乘积,其结果为一个标量。几何上,数量积可以定义如下:设 、 为两个任意矢量,它们的夹角为 ,则他们的数量积为:3数量积被广泛应用于物理中,如做功就是用力的矢量点乘位移的矢量,即 。矢量积主条目:矢量积矢量积也叫叉积,矢量积,外积,它也是矢
8、量与矢量的乘积,不过需要注意的是,它的结果是个矢量,但由于其结果是由坐标系确定,所以其结果被称为伪矢量。设有矢量 、 ,则其矢量积的矩阵表达式可写作:混合积主条目:混合积三个矢量 、 和 的混合积定义为:线性相关性对于 m 个矢量 , , ,如果存在一组不为零的 m 个数 、 ,使得 ,那么,称 m 个矢量 , , 线性相关。如果这样的 m 个数不存在,即上述矢量等式仅当 = = = = 0 时才能成立,就称矢量 , , 线性无关。 4矢量与基矢量空间分为有限维矢量空间与无限维矢量空间。在有限维矢量空间中,可以找到一组(有限个)矢量 ,使得任意一个矢量 都可以唯一地表示成这组矢量的线性组合:其
9、中的标量 是随着矢量 而确定的。这样的一组矢量称为矢量空间的基。给定了矢量空间以及一组基后,每个矢量就可以用一个数组来表示了 5。两个矢量 和 相同,当且仅当表示它们的数组一样。两个矢量 和 的和:它们的数量积为:3而标量 k 与矢量 v 的乘积则为:3矢量的模长主条目:范数矢量的大小也叫做范数或模长,记作 。有限维空间中,已知矢量的坐标,就可以知道它的模长:3矩阵数学上,一个 mn 的矩阵是一个由 m 行 n 列元素排列成的矩形阵列。矩阵里的元素可以是数字、符号或数学式。以下是一个由 6 个数字符素构成的 2 行 3 列的矩阵:大小相同(行数列数都相同)的矩阵之间可以相互加减,具体是对每个位
10、置上的元素做加减法。矩阵的乘法则较为复杂。两个矩阵可以相乘,当且仅当第一个矩阵的列数等于第二个矩阵的行数。矩阵的乘法满足结合律和分配律,但不满足交换律。矩阵的一个重要用途是解线性方程组。线性方程组中未知量的系数可以排成一个矩阵,加上常数项,则称为增广矩阵。另一个重要用途是表示线性变换,即是诸如 之类的线性函数的推广。设定基底后,某个向量 v 可以表示为 m1 的矩阵,而线性变换 f 可以表示为行数为 m 的矩阵 R,使得经过变换后得到的向量 f(v)可以表示成 Rv 的形式。矩阵的特征值和特征向量可以揭示线性变换的深层特性。矩阵是高等代数学中的常见工具,也常见于统计分析等应用数学学科中。在物理
11、学中,矩阵于电路学、力学、光学和量子物理中都有应用;计算机科学中,三维动画制作也需要用到矩阵。 矩阵的运算是数值分析领域的重要问题。将矩阵分解为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。对一些应用广泛而形式特殊的矩阵,例如稀疏矩阵和准对角矩阵,有特定的快速运算算法。关于矩阵相关理论的发展和应用,请参考矩阵理论。在天体物理、量子力学等领域,也会出现无穷维的矩阵,是矩阵的一种推广。译名矩阵的概念最早于 1922 年见于中文。 1922 年,程廷熙 在一篇介绍文章中将矩阵译为“纵横阵”。1925 年,科学名词审查会算学名词审查组在 科学第十卷第四期刊登的审定名词表中,矩阵被翻译为“矩阵式”
12、,方块矩阵翻译为“方阵式” ,而各类矩阵如“正交矩阵”、“ 伴随矩阵 ”中的“ 矩阵”则被翻译为 “方阵” 。1935 年,中国数学会审查后,中华民国教育部审定的数学名词(并“通令全国各院校一律遵用,以昭划一”)中,“矩阵” 作为译名首次出现。 1938 年,曹惠群在接受科学名词审查会委托就数学名词加以校订的算学名词汇编中,认为应当的译名是“长方阵” 。中华人民共和国成立后编订的数学名词中,则将译名定为“(矩)阵” 。1993年,中国自然科学名词审定委员会公布的数学名词中,“矩阵” 被定为正式译名,并沿用至今 1。定义将一些元素排列成若干行,每行放上相同数量的元素,就是一个矩阵。这里说的元素可
13、以是数字,例如以下的矩阵:排列成的形状是矩形,所以称为矩阵。在中国大陆,横向的元素组称为“行” ,纵向称为“列”,而在台湾则相反,横向称为“列”,纵向称为“行” 2 。矩阵一般用大写拉丁字母表示,需要具体写出其中元素时,一般用方括号或圆括号括起。以上的矩阵 A 是一个 4 行 3 列的矩阵。行数是 1 或列数是 1 的矩阵又可分别称为行向量和列向量。这是因为一个向量可以表示成行数或列数是 1 的矩阵形式。矩阵的任一行(列)都是一个行(列)向量,例如矩阵 A 的第一行 就是一个行向量。行(列)向量可以看成一个向量,因此可以称矩阵的两行(列)相等,或者某一行等于某一列,表示其对应的向量相等。标记一
14、个矩阵 A 从左上角数起的第 i 行第 j 列上的元素称为第 i,j 项,通常记为 、 或 。在上述例子中 。如果不知道矩阵 A 的具体元素,通常也会将它记成 或 。反之,如果 A 的元素可以写成只与其行数i 和列数 j 有关的统一函数 f,那么也可以用 作为 A 的简写。例如是矩阵的简写。要注意的是,一些计算机编程语言中,会将第 1 行(列)称为第 0 行(列),从而对矩阵的写法产生影响,比如矩阵 B 就要改写成 。矩阵的元素可以是数字、符号或数学表达式。一般为了支持矩阵的运算,矩阵的元素之间应当能做加减法和乘法,所以是某个环里的元素。最常见的是元素属于实数域或复数域的矩阵,简称为实矩阵和复
15、矩阵。更一般的情况下,矩阵的元素可以是由一个环中的元素排成。 给定一个环 R,所有由 R 中元素排成的 mn 矩阵的集合写作 或 。若 m = n,则通常记以 或 ,称其为 n 维矩阵或方阵。矩阵的基本运算主条目:矩阵加法、转置矩阵和初等矩阵矩阵的最基本运算包括矩阵加(减)法,数乘和转置运算。被称为“矩阵加法” 、“数乘”和“转置” 的运算不止一种 3,其中最基本最常用的定义如下:运算 定义 例子加(减)法mn 矩阵 A 和B 的和(差):AB 为一个mn 矩阵,其中每个元素是 A 和B 相应元素的和(差) ,(A B)i,j = Ai,j Bi,j,其中 1 i m , 1 j n.数乘标量
16、 c 与矩阵 A的数乘:cA 的每个元素是 A 的相应元素与 c 的乘积,(cA)i,j = c Ai,j.转置mn 矩阵 A 的转置是一个 nm 的矩阵,记为AT(有些书中也记为 Atr 或tA、A) ,其中的第 i 个行向量是原矩阵 A 的第 i个列向量;或者说,转置矩阵AT 第 i 行第 j 列的元素是原矩阵A 第 j 行第 i 列的元素,(AT)i,j = Aj,i.矩阵的加法运算满足交换律:A + B = B + A4。矩阵的转置和数乘运算对加法满足分配律:(A + B)T = AT + BTc(A + B) = cA + cB矩阵加法和数乘两种运算使得 成为一个 mn 维的实数线性
17、空间。而转置和数乘运算满足类似于结合律的规律:c(AT) = (cA)T矩阵也有类似行列式的初等变换,即对矩阵的某些行和某些列进行三类操作:交换两行(列) ,将一行(列)的每个元素都乘以一个固定的量,以及将一行(列)的每个元素乘以一个固定的量之后加到另一行(列)的相应元素上。这些操作在求矩阵的逆之时有用。矩阵乘法主条目:矩阵乘法矩阵 A 和 B 相乘得到 AB 的示意图两个矩阵的乘法仅当第一个矩阵 A 的列数和另一个矩阵 B 的行数相等时才能定义。如 A 是 mn 矩阵和 B 是 np 矩阵,它们的乘积 AB 是一个 mp 矩阵,它的一个元素其中 1 i m, 1 j p5。例如矩阵的乘法满足
18、结合律和对矩阵加法的分配律(左分配律和右分配律): 结合律:(AB) C = A(BC), 左分配律: (A + B)C = AC + BC, 右分配律: C(A + B) = CA + CB.矩阵的乘法与数乘运算之间也满足类似结合律的规律;与转置之间则满足倒置的分配律。c(AB) =(cA)B = A(cB)(AB)T = BTAT矩阵乘法不满足交换律。一般来说,矩阵 A 及 B 的乘积 AB 存在,但 BA 不一定存在,即使存在,大多数时候 AB BA。比如下面的例子:这一特性使得矩阵代数与常见的一些数域(有理数、实数、复数)以及环(多项式环、整数环)都不同。给定一个 n 维的方块矩阵A,
19、与 A 交换的所有方块矩阵构成一个环,称为 A 的交换子环。这些矩阵也构成 的一个子空间,称为 A 的可交换空间 6。与 中所有矩阵交换的矩阵只有形如 的矩阵(称为数乘矩阵)。其中的 是单位矩阵,也就是主对角线上的元素为 1,其它元素为 0 的矩阵。任意矩阵 M 乘以单位矩阵都得到自身: 。除了最常见的矩阵乘法定义以外,也有一些较不常见的矩阵乘法,比如阿达马乘积和克罗内克乘积 7。线性方程组主条目:线性方程组矩阵乘法的一个基本应用是在线性方程组上。线性方程组是方程组的一种,它符合以下的形式:其中的 以及 等等是已知的常数,而 等等则是要求的未知数。运用矩阵的方式,可以将线性方程组写成一个向量方
20、程:其中,A 是由方程组里未知量的系数排成的 mn 矩阵 ,x 是含有 n 个元素的行向量,b 是含有 m 个元素的行向量 8。这个写法下,将原来的多个方程转化成一个向量方程,在已知矩阵和向量 的情况下,求未知向量 。线性变换主条目:线性变换矩阵是线性变换的便利表达法。矩阵乘法的本质在联系到线性变换的时候最能体现,因为矩阵乘法和线性变换的合成有以下的连系: 以 表示所有长度为 n 的行向量的集合。每个 mn 的矩阵 A 都代表了一个从 射到 的线性变换。反过来,对每个线性变换 ,都存在唯一 mn 矩阵 使得对所有 中的元素 x, 。这个矩阵 第 i 行第 j 列上的元素是正则基向量(第 j 个
21、元素是 1,其余元素是 0 的向量)在 f 映射后的向量 的第 i 个元素。也就是说,从 射到 的线性变换构成的向量空间 上存在一个到的一一映射:以下是一些典型的 2 维实平面上的线性变换对平面向量(图形)造成的效果,以及它们对应的 2 维矩阵。其中每个线性变换将蓝色图形映射成绿色图形;平面的原点(0, 0)用黑点表示。水平错切变换,幅度 m=1.25. 水平反射变换“挤压” 变换,压缩程度 r=3/2放缩变换,3/2 倍旋转变换,左转30设有 km 的矩阵 B 代表线性变换 g : Rm - Rk,则矩阵积 BA 代表了线性变换的复合 g o f9,因为(g f)(x) = g(f(x) =
22、 g(Ax) = B(Ax) = (BA)x矩阵的秩是指矩阵中线性无关的行(列)向量的最大个数 10,同时也是矩阵对应的线性变换的像空间的维度 11。秩零化度定理说明矩阵的列数量等于矩阵的秩与零空间维度之和 12方块矩阵主条目:方块矩阵行数与列数相同的矩阵称为方块矩阵,简称方阵。所有 n 维的方块矩阵构成一个线性空间,这个空间对矩阵乘法也是封闭的,因此也是一个代数。方阵 A 称为可逆或非奇异的,如果存在另一个方阵 B,使得AB = In成立。这时候可以证明也有 BA = In 成立 13,可将矩阵 B 称为 A 的逆矩阵 14。一个矩阵 A 的逆矩阵如果存在的话,就是唯一的,通常记作 A1。矩
23、阵 A 的元素 Ai,i 称为其主对角线上的元素。方块矩阵 A 的所有主对角线元素之和称为它的迹,写作 tr(A)。尽管矩阵的乘法不满足交换律,方阵相乘时交换顺序会导致乘积变化,但它们的迹不会变,即 tr(AB) = tr(BA)15。除此以外,矩阵转置的迹等于其自身的迹,tr(A) = tr(AT)。如果一个方阵只有主对角线上的元素不是 0,其它都是 0,那么称其为对角矩阵。如果主对角线上方的元素都是 0,那么称为下三角矩阵;反之如果主对角线下方的元素都是 0,那么称为上三角矩阵。例如 n = 3 的时候,这些矩阵分别写作:(对角矩阵) , (下三角矩阵)和 (上三角矩阵) 。行列式主条目:
24、行列式R2 里的一个线性变换 f 将蓝色图形变成绿色图形,面积不变,而顺时针排布的向量 x1 和 x2 的变成了逆时针排布。对应的矩阵行列式是-1.方块矩阵 A 的行列式是一个将其映射到标量的函数,记作 det(A) 或 |A|,反映了矩阵自身的一定特性。一个方阵的行列式等于 0 当且仅当该方阵不可逆。系数是实数的时候,二维(三维)方阵 A 的行列式的绝对值表示单位面积(体积)的图形经过 A 对应的线性变换后得到的图形的面积(体积),而它的正负则代表了对应的线性变换是否改变空间的定向:行列式为正说明它保持空间定向,行列式为负则说明它逆转空间定向。22 矩阵的行列式是33 矩阵的行列式由 6 项
25、组成。更高维矩阵的行列式则可以使用莱布尼兹公式写出 16,或使用 拉普拉斯展开 由低一维的矩阵行列式递推得出 17。两个矩阵相乘,乘积的行列式等于它们的行列式的乘积:det(AB ) = det(A)det(B)18。将矩阵的一行(列)乘以某个系数加到另一行(列)上不改变矩阵的行列式,将矩阵的两行(列)互换则使得其行列式变号 19。用这两种操作可以将矩阵变成一个上三角矩阵或下三角矩阵,而后两种矩阵的行列式就是主对角线上元素的乘积,因此能方便地计算。运用行列式可以计算线性方程组的解(见克莱姆法则) 20。特征值与特征向量主条目:特征向量nn 的方块矩阵 A 的一个特征值和对应特征向量是满足21的
26、标量 以及非零向量 。特征值和特征向量的概念对研究线性变换很有帮助。一个线性变换可以通过它对应的矩阵在向量上的作用来可视化。一般来说,一个向量在经过映射之后可以变为任何可能的向量,而特征向量具有更好的性质22。假设在给定的基底下,一个线性变换对应着某个矩阵 A,如果一个向量可以写成矩阵的几个特征向量的线性组合:其中的 表示此向量对应的特征值是 ,那么向量 经过线性变换后会变成:可以清楚地知道变换后向量的结构。另一个等价的特征值定义是:标量 为特征值,如果矩阵 是不可逆矩阵。根据不可逆矩阵的性质,这个定义也可以用行列式方程描述:为特征值,如果23这个定义中的行列式可以展开成一个关于 的 n 阶多
27、项式,叫做矩阵 A 的特征多项式,记为 。特征多项式是一个首一多项式(最高次项系数是 1 的多项式)。它的根就是矩阵 A 特征值 24。哈密尔顿凯莱定理说明,如果用矩阵 A 本身代替多项式中的不定元 ,那么多项式的值是零矩阵 25:对称主条目:对称矩阵转置等于自己的矩阵,即满足 A = AT 的方块矩阵 A 叫做对称矩阵。满足 A = - AT的矩阵称为反对称矩阵。在复系数矩阵中,则有埃尔米特矩阵的概念:满足 A = A*的方块矩阵称为埃尔米特矩阵,其中的 A*表示 A 的共轭转置矩阵。根据谱定理,实对称矩阵和复埃尔米特矩阵拥有特征基,即由矩阵的特征向量组成的基底。因此任何向量都能表示成矩阵特
28、征向量的线性组合。此外,这两类矩阵的特征值都是实数 26。正定性矩阵表达式正定性 不定矩阵 正定矩阵对应二次型取值图像说明 正定矩阵对应的二次型的取值范围永远是正的, 不定矩阵对应的二次型取值则可正可负主条目:正定矩阵nn 的实对称矩阵 A 如果满足对所有非零向量 x Rn,对应的二次型Q(x) = xTAx函数值都是正数,就称 A 为正定矩阵。类似地还有半正定矩阵、负定矩阵、不定矩阵等概念 27。对称矩阵的正定性与其特征值密切相关。矩阵是正定的当且仅当其特征值都是正数 28。矩阵的计算矩阵在许多学科领域中都有应用,在很多时候,除了需要知道矩阵的理论性质以外,还需要计算矩阵的数值。为了矩阵的计
29、算能够足够精确与快捷,数值线性代数中专门有研究矩阵的数值计算方法 29。与其它的数值计算一样,矩阵的数值计算注重的主要也是算法的复杂度和数值稳定性。矩阵的数值计算可以使用直接计算,也可以用迭代算法,例如在计算方块矩阵的特征值时,可以从一个非零向量 开始,通过特定迭代方法得到一个逼近某个特征向量的向量序列 30。测量一个算法的复杂度是指估计此算法需要的基本运算如数字的加法和乘法的次数,或者找出它的一个上界。例如按照定义计算的话,两个 n 阶方阵的乘法需要 次数字乘法计算,因为其乘积是一个 n 阶方阵,有 个元素,计算每个元素需要 次数字乘法。如果使用施特拉森算法的话,可以将数字乘法的次数减低到大
30、约 次31。此外,编程语言或环境本身对算法的复杂度也会有影响。某些特殊类型的矩阵携带的数据量比一般矩阵要少,同时带来的信息量比一般矩阵多。一个重要的例子是稀疏矩阵,这类矩阵中绝大部分的元素是零。有关稀疏矩阵的计算,如计算稀疏矩阵 A 的线性方程组 Ax = b 时,可以使用一些专用于稀疏矩阵的特殊算法(比如共轭梯度法 32),减低计算复杂度。算法的数值稳定性是指输入值的小变化不会让计算结果产生很大偏差。例如计算矩阵的逆时,可以用以下的算法(其中 adj(A)表示 A 的伴随矩阵)A1 = Adj(A) / det(A)这个算法在 A 的行列式接近 0 的时候会引起很大的舍入误差 33。而如果使
31、用全选主元的高斯消去法求逆,则在复杂度降低的同时能够避免舍入误差,保证数值稳定性。矩阵分解主条目:矩阵分解、对角化、高斯消去法和巴莱斯算法矩阵研究的一大方向是将一般的矩阵用一些比较“简单 ”的矩阵来表示。这种表示方式称为矩阵的变换与分解。矩阵变换与分解的方法有很多,它们的目的都是希望化简后的矩阵保持原矩阵的某些性质,比如行列式、秩或逆矩阵,而形式相对简单,因而能用容易地进行讨论和计算,或者能使得某些算法更易执行。LU 分解将矩阵分解为一个下三角矩阵 L 和一个上三角矩阵 U 的乘积 34。分解后的矩阵可以方便某些问题的解决。例如解线性方程组时,如果将系数矩阵 A 分解成A = LU 的形式,那
32、么方程的求解可以分解为求解 Ly = b 和 Ux = y 两步,而后两个方程可以十分简洁地求解(详见三角矩阵中“向前与向后替换 ”一节)。又例如在求矩阵的行列式时,如果直接计算一个矩阵 A 的行列式,需要计算大约 (n + 1)! 次加法和乘法;而如果先对矩阵做 LU 分解,再求行列式,就只需要大约 次加法和乘法,大大降低了计算次数。这是因为做 LU 分解的复杂度大约是 次,而后注意到 L 和 U 是三角矩阵,所以求它们的行列式只需要将主对角线上元素相乘即可。若尔当矩阵,其中灰色框内的是若尔当块高斯消去法也是一种矩阵分解方法。通过初等变换操作,可以将任何矩阵变为阶梯形矩阵,而每个操作可以看做
33、是将矩阵乘上一个特定的初等矩阵 35。奇异值分解则是另一种分解方法,将一个矩阵表示成 3 个矩阵的乘积:A = UDV。其中 U 和 V是酉矩阵,D 是对角矩阵。特征分解是将一个矩阵 A 写成 PDP1的形式,其中 P 是一个可逆矩阵,D 是对角矩阵 36。如果 A 的特征分解存在,就称它是可对角化的矩阵。不能对角化的矩阵,也有类似的分解方式。任意的矩阵 A 都可以写成 PJP1的形式,其中的矩阵 J 是若尔当标准型。若尔当标准型是矩阵的一种,它与对角矩阵类似,只不过主对角线上的元素不是数值,而是若尔当块:主对角线上为同一元素 ,主对角线右上一行的次对角线上都是 1,其它元素都是 0 的矩阵(
34、见右图) 37。特征分解可以方便计算矩阵的幂次和多项式,如要计算 An:An = (PDP1)n = PDP1PDP1.PDP1 = PDn P1而其中对角矩阵的幂次 Dn 要比 An 容易计算得多。同理还可计算矩阵指数:eA(在线性微分方程中有应用)、矩阵对数和矩阵的平方根 38。为了提高算法的数值稳定性,还有舒尔分解等矩阵分解方法 39。矩阵的推广矩阵的元素除了可以是实数和复数以外,也可以任意环或域中元素。在线性代数中,矩阵的性质可以经由有限维的线性空间中的线性变换定义。更广泛的,无限维空间中的线性算子,则可以定义更广泛的无穷维矩阵。矩阵的另一种推广是张量。标量可以看成零维方式排列的数据(
35、只有一个“点”),向量可以看成是一维方式排列的数据(若干个“点”排成的“ 线段 ”),矩阵可以看成是二维方式排列的数据(若干个“线段”排成的“ 矩形”),而张量的概念则包括了这几种排列方式。在张量的概念中,标量是零维张量,向量是一维张量,矩阵是二维向量,而更高维方式排列的数据方式就是高维张量 40。一般域和环上的矩阵矩阵的元素除了可以是实数和复数以外,还可以是任何能够使得矩阵的运算律成立的元素。首先,矩阵的元素可以是任意一个域(即能够进行“加减乘除” 运算的集合)中元素。例如编码理论中会出现系数为有限域中元素的矩阵,以及有理数系数的矩阵。如果矩阵的系数所在域 K 不是代数闭域,那么在求矩阵的特
36、征值时,由于特征值是相应的特征多项式的根,可能不在系数域 K 中,而是在系数域的某个扩域L 中。反过来,如果考虑扩域 L/K,以及 L 中的一个元素 ,以及 L 中线性变换,那么由于 也是一个 K-线性变换,它可以表示成一个 nn 的K 系数矩阵 ,其中的 n 是扩域 L/K 的阶数。 是这个矩阵的特征值,这个矩阵的特征多项式 是 在 K 中的最小多项式 的幂次:其中的 是扩域 L/K 的阶数 41。更一般的情况是矩阵的元素属于某个环 R42。环是比域更广泛的概念,只要求其中元素能够进行加减法和乘法运算(不一定能定义除法)。给定一个环 R,中的矩阵之间可以相互加减以及相乘,所以 关于矩阵的加法
37、和乘法也构成一个环,称为矩阵环。n 维方阵的环 与左R-模 Rn 的自同态环同构 43。若 R 是交换环,则 是一个带单位元的 R-代数,满足结合律,但不满足交换律。其中的矩阵仍然可以用莱布尼兹公式定义行列式。一个矩阵可逆当且仅当其行列式为环 R 中的可逆元(域上的矩阵可逆只需行列式不等于 0)44矩阵与线性变换前面已经提到,所有 Rn Rm 的线性变换都对应着一个 中的矩阵。更一般地,给定了基底后,任意两个有限维线性空间之间的线性映射 f: V W 也对应着一个矩阵 Af= (aij)。设空间 V 和 W 的基底分别是 v1, ., vn 和 w1, ., wm,那么对任意 , 矩阵 Af
38、实际上“记录”了 V 中每个基底向量经过变换后得到的 W 中的像在基底(w1, ., wm)下的形式。要注意矩阵的内容取决于基底的选择。可以说,矩阵是线性变换 f 在特定“角度”(基底)下的“素描”。不同的 “角度”下,描述 f 的矩阵是不同的,但这些矩阵都是相似矩阵 45。与矩阵有关的基本概念都可以用线性变换的层面来解释,比如一个矩阵的转置可以用 f 的对偶变换 f* : W* V*来表示 46。当矩阵的元素是带单位元的环 R 中的元素时,mn 的 R-矩阵对应的则是 R-自由模 Rm 和 Rn 之间的 R-线性变换。n = m 的时候,这些 R-线性变换可以相互复合,因此 n 维的 R-矩
39、阵环能够与 R-自同态环 Rn 同构。矩阵群主条目:矩阵群群是比环更宽泛的代数结构,只需要集合配备一个满足结合律的二元运算,即将两个群内元素映射到群内一元素的运算。矩阵群是指矩阵关于矩阵乘法组成的群 47。显然,只有方块矩阵才能构成乘法群。所有 n 维的可逆方阵构成一个群,称为 n 阶一般线性群。由于群内每个元素都必须是可逆的,任意的矩阵群都必然是一般线性群的子群。能够在矩阵乘法和求逆矩阵运算下保持的性质都可以用来刻画一定的矩阵群。例如所有行列式为 1 的矩阵可以构成一个群,称为 n 阶特殊线性群 48。所有 n 维的正交矩阵,即满足:MTM = I的矩阵 M 也构成一个群,称为 n 阶正交群
40、 49。正交矩阵得名于它在 Rn 中对应的线性变换具有保角性,也就是说对基本的点积,满足(Mv) (Mw) = v w.50每个有限群都同构于一个矩阵群。实际上,每个有限群都同构于某个置换群的子群,而每个置换群都同构于一个矩阵群(见置换群的正则群表示 51)鉴于矩阵群的性质可以通过与矩阵相关的更多手段更好地理解,常常通过研究矩阵群来研究一个有限群。相关的理论称为群表示论。无限维矩阵主条目:无限维矩阵无穷维矩阵可以指行数或列数无穷大,或两者都是无穷大的矩阵 52。尽管这样的矩阵无法完整写出,但只要知道每行每列的元素的值,仍然可以对它进行矩阵操作和运算。这里矩阵的行数和列数甚至不一定需要是可数集。
41、需要注意的是,无穷维矩阵的乘法涉及到无穷级数求和,因此只有在相关的无穷级数收敛的时候,才能定义矩阵的乘积 53。无限维矩阵也可以是方块矩阵,定义为行标记集合与列标记集合相同的矩阵(如 ) 54。无限矩阵无法定义通常意义上的行列式,因此可逆矩阵不一定是方块矩阵,同理,酉矩阵也不一定要是方块矩阵 55。空矩阵主条目:空矩阵空矩阵是指行数或列数为零的矩阵。空矩阵的定义可以完善一些关于零维空间的约定。包括约定一个矩阵与空矩阵相乘得到的也是空矩阵,两个 n0 和 0p 的空矩阵相乘是一个 np 的零矩阵(所有元素都是零的矩阵)。00 的空矩阵的行列式约定为 1,所以它也可以有逆矩阵,约定为它自己 56。
42、分块矩阵分块矩阵是指一个大矩阵分割成“矩阵的矩阵”。举例,以下的矩阵可分割成 4 个 22 的矩阵。将矩阵分块可以使得矩阵结构清晰,在某些时候可以方便运算、证明。两个大小相同、分块方式也相同的矩阵可以相加。行和列的块数符合矩阵乘法要求时,分块矩阵也可以相乘。将矩阵分块相乘的结果与直接相乘是一样的。用分块矩阵求逆,可以将高阶矩阵的求逆转化为多次低阶矩阵的求逆 57。应用矩阵在许多领域都应用广泛。有些时候用到矩阵是因为其表达方式紧凑,例如在博弈论和经济学中,会用收益矩阵来表示两个博弈对象在各种决策方式下的收益 58。文本挖掘和索引典汇编的时候,比如在 TF-IDF 方法中,也会用到文件项矩阵来追踪
43、特定词汇在多个文件中的出现频率 59。复数可以用实系数的 22 矩阵表示:这种表示法与复数的加减法、乘法都相兼容。比如,22 的旋转矩阵可以用来表示模长为 1 的复数,一个向量乘以此旋转矩阵可以视作一个复数乘以该模长为 1 的复数。对 四元数也有类似的矩阵表达 60。早期的密码技术如希尔密码也用到矩阵。然而,矩阵的线性性质使这类密码相对容易破解 61。计算机图像处理 也会用到矩阵来表示处理对象,并且用放射旋转矩阵来计算对象的变换,实现三维对象在特定二维屏幕上的投影 62。多项式环上的矩阵在控制论中有重要作用。化学中也有矩阵的应用,特别在使用量子理论讨论分子键和光谱的时候。具体例子有解罗特汉方程
44、时用重叠矩阵和福柯矩阵来得到哈特里福克方法中的分子轨道。图论一个无向图的邻接矩阵图论中可以用矩阵描述一个有限图 63。这个矩阵叫做相关矩阵的邻接矩阵,记录了图的每两个顶点之间是否有边连接。对简单图来说,邻接矩阵的元素只取两个值:0 和 1,第 i 行第 j 列上取值为 0,表示没有从第 i 个顶点连到第 j 个顶点的边,取值为 1 则说明有。如果是一般情况的话,第 i 行第 j 列上的取值是从第 i 个顶点连到第 j 个顶点的边的数目。距离矩阵则是表示图中各顶点之间距离的矩阵 64。在研究互联网等复杂网络的时候,邻接矩阵常常会是稀疏矩阵。因此网络理论中有专门研究稀疏矩阵的方面。数学分析在多元函
45、数微积分学中,对二阶偏导数存在的函数 f: Rn R,可以定义其海森矩阵 65:n=2 时,海森矩阵 的特征值一正一负,说明函数 f(x,y) = x2 y2 在 (x = 0, y = 0) 处有一个鞍点(红色点)严格来说,仅当函数在某一点上的二阶偏导数存在,才能定义这一点上的海森矩阵。海森矩阵给出了函数在这一点的变化率方面的信息。当给定的点x = (x1, ., xn)是函数平稳点(即函数 f 在这一点上的一阶偏导数 都是 0)时,就需要利用海森矩阵来查看函数在这一点周围的增长特性。多元函数在点 x 的泰勒展开是:如果函数在点 x 的一阶偏导数都是 0,那么 ,所以函数在 x 附近的变化率
46、取决于海森矩阵 的性质。如果 是正定矩阵,那么函数在点 x 取得局部最小值,如果是负定矩阵,则函数在 x 取得局部最大值。在这类情况下,关于函数 f 的条件最优化问题可以转变为关于海森矩阵的二次规划问题 66。矩阵在多元函数微积分中的另一个应用是雅可比矩阵。函数 f: Rn Rm 在某一点 x 上的一阶偏导数存在时,可以定义它在这点上的雅可比矩阵 67:如果 nm,而 又是满秩矩阵(秩等于 m)的话,根据反函数定理,可以找到函数 f 在 x 附近的一个局部的反函数 68。偏微分方程理论中,二阶拟线性偏微分方程可以根据最高次偏导项系数构成的矩阵的正定性分类。假设有一个二阶拟线性偏微分方程:并假设
47、 记矩阵 。如果矩阵 A 是正定或负定矩阵,那么就称方程(E)为椭圆形偏微分方程;如果 A 不可逆,就称(E)为抛物形偏微分方程,如果 A 可逆而且恰有 n - 1 个特征值同号,就称 (E)为双曲型偏微分方程。其它情况下也称(E)为超双曲形偏微分方程。不同类型的方程解的形式也不一样 69。用数值方法解偏微分方程时更需要用到矩阵。一个重要的方法是有限元方法,在求解各种物理中遇到的偏微分方程时广泛使用。有限元方法的基本思想是用一系列“简单”函数的线性组合来“逼近” 偏微分方程的精确解。这些“简单”函数通常是指将求解区域分割成一定数量的“小块” 后,仅在某一“ 小块 ”上非零的分段线性函数。选定了
48、网格和“简单” 函数后,可以求解关于刚度矩阵的方程得到近似解。有限元理论中证明了在满足一定的条件下,近似解将随着网格趋于精细而弱收敛到精确解 7071。概率论与统计概率论中常用到随机矩阵,即行向量是概率向量(即所有的元素都在 0 和 1 之间,并且加起来等于 1 的向量)的矩阵。随机矩阵可用来定义有限概率空间中的马尔可夫链。设随机变量 是某个马尔可夫链在 时刻的状态,所有可能的状态称为状态空间,那么随机矩阵 则记录了假设已知的可能情况下 做各种取值的可能性 72。 的第 i 行第 j 列上的元素表示当 的时候, 的可能性。 的第 j 行记录了从转移到 各种状态的可能性。所以 叫做 时刻的转移矩阵。如果马尔可夫链的转移矩阵不随时刻变化,则称为齐次马尔可夫链。这时马尔可夫链的吸引态可以通过计算转移矩阵的特征向量得到 73。统计学中也会用到各种不同的矩阵。描述统计学中常常需要用矩阵的形式来描述数据样本,显得更为紧凑。几个随机变量的协方差矩阵表示它们之间的协方差关系,在某种程度上表示了它们相互间的关联程度(但不绝对) 74。统计学中用到矩阵的另一个地方是线性回归中的最小二乘法分析。当观测到随机样本 时,线性回归法的目标是希望找到以下的线性关系:即将变量 Y 表示成 X 的分量的线性组合与一个已知的随机误差的和。这个表示可以写成矩阵的形式,并利用矩阵的奇异值分解来分析 75。另一种随机矩