略
线性空间是指在一个集合
*广义来说, 在一个地方内的元素经过可定义的操作, 新元素仍不会超过该地方, 则将其称为空间.
如何定义加法和乘法?
例如, 在
点乘定义为
思考: 在
答案:
若
例: 次数小于等于
设
零空间 (核空间) 为
例: 给定
要证明实空间
若有
因此
设有一组向量系
容易证明
因此所谓
即
对于给定的一组向量系
则就称向量系
如果在线性空间
若
-
$[x_1, x_2, \cdots, x_m]$ 线性无关; -
$\forall x \in S$ ,$x$ 都可以表示成$x = \alpha_1 x_1 + \alpha_2 x_2 + \cdots + \alpha_n x_n$ ;
则称向量系
基底上的向量表示唯一, 可以通过线性无关定义证明.
$T \cap V = { x | x \in T \land x \in V }$ $T \cup V = { x | x \in T \lor x \in V }$ $T + V = { x | x = y + z, y \in T, z \in V }$ $T \oplus V = { x | x = y + z, y \in T, z \in V, T \cap V = { 0 } }$
$A = \begin{bmatrix} a_1, a_2, \cdots, a_n \end{bmatrix}$
对于线性方程组的系数矩阵
-
$m > n$ 时常称矩阵$A$ 是 "高矩阵", 相应的线性方程组为超定方程组 (overdetermined systems); -
$m = n$ 时矩阵$A$ 称为正方矩阵 (square matrix); -
$m < n$ 时矩阵$A$ 常称为 "宽矩阵", 相应的线性方程组为亚定方程组 (underdetermined systems). 但方程组$Ax=b$ 中矩阵的上面三种形式, 仅仅是形式上的差别, 并不是影响其解 (有解、无解等) 的本质差别.
性质:
$AB \neq BA$ $(AB)C = A(BC)$
思考:
-
$AB \neq BA$ (什么时候等于)
性能指标 | 性能 |
---|---|
二次型 | 矩阵的正定性和负定性 |
行列式 | 矩阵的奇异性 |
特征值 | 矩阵的奇异性, 正定性, 对角线元素结构 |
迹 | 矩阵对角线元素和 |
秩 | - |
- 特征值、特征向量
- 谱分析
- 为什么要研究矩阵特征值和特征向量:
- 矩阵和矩阵的比较是很难的, 我们要研究一个矩阵为什么是好的, 关键就在于谱.
- 一个矩阵会产生很多特征值, 如果这些特征值的分布较好, 例如矩阵的大部分特征值集中, 少部分分散, 则可以忽略掉分散的那部分特征值.
- 大部分的特征值的能量应该要接近, 差别不能过大.
- 标记传播, 随机游走, 马尔可夫过程等等方法中的矩阵计算, 其本质都是谱的分析, 都是对矩阵特征值的分析.
- 关键在于如何快速地计算矩阵的特征值.
- 特征分解, 矩阵分解的关键在于将特征值与特征向量分解出来. 无论是为了存储, 还是计算, 都是十分重要的.
- 还有矩阵求导, 特征值求导.
$A \to \dot{A}$ , 特征值如何$\mu_c \to \dot{\mu}_c$ ? - 矩阵压缩也是一样的, 可以去掉特征值较小的那部分.
- 计算和压缩是需要权衡的, 傅里叶变换的计算开销大, 但是可以压缩得更小; 余弦变换的计算开销小, 但是压缩的结果较大.
- 矩阵计算 (矩阵分解) => 特征值, 特征向量, 距离度量 => 人工智能 (聚类分类, 计算机视觉)
-
$A$ 是实对称矩阵或复共轭矩阵.
若遇到
- 正定矩阵:
$\forall x \neq 0, x^{\mathrm{H}}Ax > 0$ , 记作$A \succ 0$ - 关键在于特征值大于零,
$x^{\mathrm{H}}Ax = (Qx)^{\mathrm{T}}\Lambda (Qx) > 0$ - 谱分析是完全二部图
- 关键在于特征值大于零,
矩阵特征值是
线性变换
则称标量
特征向量不是唯一的.
由定义可得
实际上即变为求解行列式
同理, 由这个式子也可以看出, 只要有一个特征值是
$A = \begin{bmatrix} 1 & 2 & 0 \ -1 & 2 & -1 \ 0 & 1 & 1 \\end{bmatrix}$
$A^T = \begin{bmatrix}1 & -1 & 0\2 & 2 & 1\0 & -1 & 1\end{bmatrix}$
$A^TA = \begin{bmatrix}2 & 0 & 1\0 & 9 & -1\1 & -1 & 2\end{bmatrix}$
$\det(A^TA - \lambda I) = \begin{vmatrix}2 - \lambda & 0 & 1\0 & 9 - \lambda & -1\1 & -1 & 2 - \lambda\end{vmatrix} = - \lambda^{3} + 13 \lambda^{2} - 38 \lambda + 25 = 0$
求解
$\lambda_1 I - A^TA = \begin{bmatrix}\lambda_1 & 0 & 0\0 & \lambda_1 & 0\0 & 0 & \lambda_1\end{bmatrix} - \begin{bmatrix}2 & 0 & 1\0 & 9 & -1\1 & -1 & 2\end{bmatrix} = \begin{bmatrix}0.92112493807244 & 0 & -1.0\0 & -6.07887506192756 & 1.0\-1.0 & 1.0 & 0.92112493807244\end{bmatrix}$
- 若
$A, B$ 均为$n \times n$ 矩阵, 则矩阵乘积特征值$\operatorname{eig}(AB) = \operatorname{eig}(BA)$ - 若
$A$ 为$m \times n$ 矩阵,$B$ 为$n \times m$ 矩阵, 那么$\operatorname{eig}(AB)$ 和$\operatorname{eig}(BA)$ 具有相同的非零特征值, 所不同的是零特征值的重数不一样 - 逆矩阵的特征值
$\operatorname{eig}(A^{-1}) = 1 / \operatorname{eig}(A)$ - 设
$I_n$ 为$n \times n$ 单位矩阵,$c$ 为标量, 则$\operatorname{eig}(I_n + cA) = 1 + c \cdot \operatorname{eig}(A)$ $\operatorname{eig}(A + c I_n) = \operatorname{eig}(A) + c$ - 很重要的一点: 怎么求逆才能比较稳定.
- 也就是说, 只要在对角线上加一个小常数, 就能变得稳定.
- 相异特征值对应的特征向量是线性无关的.
- 若
$A$ 是$n \times n$ 的实对称矩阵, 则所有特征值都是实数, 其$n$ 个特征向量可以构成一个完备系, 即一定存在$n$ 个互相正交的特征向量可以构成$n$ 维空间的基底.
二次型本质定义:
- 正定矩阵: 所有特征值大于零
- 半正定矩阵: 所有特征值为非负实数
- 负定矩阵: 所有特征值小于零
- 半负定矩阵
- 不定矩阵
矩阵特征值是刻画矩阵特性 (奇异性, 正定性等) 的重要特征.
对角线元素的和成为迹
我们有
因为我们将
则由韦达定理有
迹是特征值的和, 也就是 1-范数, 而 1-范数是 0-范数的最小凸包.
性质:
$\operatorname{tr}(\alpha A + \beta B) = \alpha \operatorname{tr}(A) + \beta \operatorname{tr}(B)$ -
$A \in R^{m \times n}, B \in R^{n \times m}$ , 则$\operatorname{tr}(AB) = \operatorname{tr}(BA)$ - $\operatorname{tr}(AB) = \sum_{i = 1}^{n}(AB){ii} = \sum{i = 1}^{n}(\sum_{j=1}^{n}a_{ij}b_{ji})$
- $\operatorname{tr}(BA) = \sum_{j = 1}^{n}(BA){jj} = \sum{j = 1}^{n}(\sum_{i=1}^{n}b_{ji}a_{ij})$
-
$\operatorname{tr}(A^{\mathrm{H}}A) = 0$ , 则$A = 0_{m \times n}$ $A = (\alpha_1, \alpha_2, \cdots, \alpha_n)$ $\operatorname{tr}(A^{\mathrm{H}}A) = \sum_{i=1}^{n}|\alpha_{i}|^{2} = 0$
-
$\operatorname{tr}(xy^{\mathrm{T}}) = y^{\mathrm{T}}x$ ,$x^{\mathrm{T}}Ax = \operatorname{tr}(Axx^{\mathrm{T}})$
线性无关:
一组
才成立.
秩:
设
性质:
- 秩等于非零特征值的个数.
-
$\operatorname{rank}(A)$ 是正整数. $\operatorname{rank}(A) \le \min(m, n)$ $\operatorname{rank}(A) = \operatorname{rank}(A^{\mathrm{T}})$ - 常数/标量 (scalar)
$c \neq 0$ , 则$\operatorname{rank}(cA) = \operatorname{rank}(A)$ -
$A \in R^{m \times n}, B \in R^{m \times m}, C \in R^{n \times n}$ 非奇异矩阵, 则$\operatorname{rank}(BA) = \operatorname{rank}(AC) = \operatorname{rank}(BAC) = \operatorname{rank}(A)$ $\operatorname{rank}(BA) \le \min(\operatorname{rank}(B), \operatorname{rank}(A)) \le \operatorname{rank}(A)$ $\operatorname{rank}(A) = \operatorname{rank}(B^{-1}BA) \le \operatorname{rank}(BA)$
思考题:
$\operatorname{rank}(AB) \le \min(\operatorname{rank}(A), \operatorname{rank}(B))$
证明:
不妨设
令 $\bm{C} = \bm{A}\bm{B} = \bm{A}\begin{bmatrix} \bm{b_1}, \bm{b_2}, \cdots, \bm{b_m} \end{bmatrix} = \begin{bmatrix} \bm{A}\bm{b_1}, \bm{A}\bm{b_2}, \cdots, \bm{A}\bm{b_m} \end{bmatrix} = \begin{bmatrix} \bm{c}_1, \bm{c}_2, \cdots, \bm{c}_m \end{bmatrix}$
则 $\bm{c}j = \bm{A}\bm{b}j = \sum{i=1}^{k}b{ij}\bm{a}_{j}$
即
同理有
因此
根据
- 适定线性方程组: 若
$m = n$ 且$\operatorname{rank}(A) = n$ , 即$A$ 为非奇异矩阵. - 欠定线性方程组:
$\operatorname{rank}(A) = m < n$ , 方程组无唯一解. - 超定线性方程组:
$\operatorname{rank}(A) = m > n$ , 方程组无解.
- 定义范数函数
$\rho(x)$ -
$\rho(x) \ge 0$ , 且$\rho(x) = 0$ 当且仅当$x = 0$ $\rho(\alpha x) = |\alpha|\rho(x)$ $\rho(x + y) \le \rho(x) + \rho(y)$
-
- 定义了范数之后, 就能定义夹角余弦
- 任何的距离都定义在范数上.
Lp 范数:
- $\left| x \right|{p} = (\sum{i = 1}^{n}(x_i)^{p})^{\frac{1}{p}}$
-
$\left| x \right|_{0} \triangleq$ 非零元素个数. 非凸范数. $\left| x \right|_{1} \triangleq |x_1| + |x_2| + \cdots + |x_n|$ $\left| x \right|_{2} \triangleq (|x_1|^{2} + |x_2|^{2} + \cdots + |x_n|^{2})^{\frac{1}{2}}$ $\left| x \right|_{\infty} \triangleq \max{ |x_1|, |x_2|, \cdots, |x_n| }$
函数空间的内积与范数:
若
正交:
若向量内积等于零, 即
- 几何意义: 向量垂直.
- 物理意义: 两个向量不会包含对方任何成分, 即不会互相交融, 也不会互相干扰.
正交向量系:
给定一组
则称
-
$L_1$ 范数 ($p = 1$ ) - Frobenius 范数 (
$p = 2$ )