Stage 1 — 向量、复数与矩阵入门 (Vectors, Complex Numbers & Intro to Matrices)
这个 Stage 你将学到什么
这是整门线性代数的地基层。看完之后你应该能:
- 把”向量 (vector)“同时当成几何箭头和有序数组两种东西来想;
- 熟练做线性组合 (linear combination)——这是后面所有内容的核心动词;
- 用点积 (dot product) 算长度、角度、判断正交,并证明 Cauchy–Schwarz 与三角不等式;
- 把复数 (complex numbers) 玩熟(21-241 明确要求,后面特征值会用到);
- 理解矩阵 (matrix) 的本质,以及矩阵–向量乘法 的两种视角(这是 Strang 教学的灵魂,也是理解 的钥匙)。
对应 21-241 官方 topic:complex numbers, real and complex vectors and matrices。
对应 Strang《Introduction to Linear Algebra》:Ch 1 + 复数章前半。
怎么用这份笔记(尤其是为了 21-241)
21-241 的特点是 HW 偏计算(难度 4)、但考试有硬证明(难度 7)。所以我在每个概念后面都尽量配了性质 + 证明,不只是公式。
- 标 ★ 的是必须吃透的核心。
- 标 ➕ 的是拓展(超出 21-241 但有价值,尤其对你的 CS / 数据科学方向)。
> [!question]是自测题,答案是可折叠 callout(在 Obsidian 里点一下展开),先自己做再看。- 读证明时别只看”对不对”,要看”为什么这一步能这么走”——这正是考试要你复现的能力。
0. 先建立一个心态:线性代数到底在研究什么
一句话:线性代数研究”线性”的世界——也就是只允许两种操作的世界:加法()和数乘()。
听起来很简单,但奇迹在于:几乎所有”光滑”的东西在局部都是线性的(微积分里的导数就是”线性近似”),所以线性代数成了机器学习、图形学、密码学、微分方程、算法的通用语言。Strang 有句名言,大意是线性代数”自然地分成计算和形式结构两部分”——Stage 1~2 偏计算,从 Stage 3 开始转向抽象结构。
一条贯穿全书的主线(先记住,后面会反复出现)
” 就是 各列的线性组合。”
这一句话会在 Stage 1 出现、在 Stage 3 变成”列空间 (column space)“、在 Stage 6 变成特征向量。现在记不深没关系,但请把它当成北极星。
1. 向量 (Vectors)
1.1 两种看向量的方式 ★
同一个向量,有两种等价的”长相”,学线代必须能在两者之间自由切换:
- 几何视角:一个有方向和长度的箭头(可以平移,只看相对位移)。
- 代数视角:一列有序的数,例如
我们把所有” 个实数排成一列”的集合记作 (读作 “R-n”)。所以上面的 。类似地有 (平面)、(100 维,无法画,但代数照样算)。
行向量 vs 列向量
默认情况下,“向量”指列向量 (column vector)。行向量 (row vector) 是它的转置 。这个区分在矩阵乘法里非常关键,别混。
1.2 向量的两种基本运算
设 ,(我们把 这种单个的数叫标量 (scalar)):
几何意义:
- 加法遵循平行四边形法则(parallelogram law):把 和 首尾相接,对角线就是 。
- 数乘是缩放: 拉长, 缩短, 反向。
1.3 ★ 线性组合 (Linear Combination)——本课最重要的”动词”
给定一组向量 和一组标量 ,它们的线性组合就是:
为什么这是核心
线性代数里几乎每个问题都能翻译成关于线性组合的问题:
- “解方程 ” = ” 能不能写成 各列的线性组合?”
- “这些向量张成多大空间” = “它们所有线性组合构成什么?”
- “线性无关” = “除了全取 0,还有别的线性组合等于 吗?”
你以后会发现:把题目翻译成”线性组合”的语言,往往就解开了一半。
1.4 张成 (Span)——线性组合的”全体” ➕(预览)
把 的所有可能线性组合收集起来,得到的集合叫它们的张成 (span):
几何上:
- 一个非零向量的 span 是一条过原点的直线;
- 两个不平行向量的 span 是一个过原点的平面。
这里只是埋个种子
“span” 到 Stage 3 会正式发展成子空间 (subspace) 和列空间。现在你只要有”线性组合的全体 = 一片几何区域”这个直觉就够了。
1.5 线性无关的直觉 ➕(预览)
如果一组向量里,没有任何一个能被其它几个的线性组合表示出来,就说它们线性无关 (linearly independent)。直觉:每个向量都提供了”新方向”,没有冗余。
严格定义(Stage 3 会深入): 线性无关 方程
只有平凡解 。
2. 点积、长度、角度 (Dot Product, Norm, Angle)
向量的加法和数乘还不够——我们想谈”长度”和”夹角”,这需要一个新工具:点积。
2.1 点积 (Dot Product / Inner Product) ★
对 :
注意结果是一个标量,不是向量。例如 。
2.2 长度 / 范数 (Norm) 与单位向量
向量的长度(也叫范数,norm)定义为:
这其实就是勾股定理推广到 维。若 ,称 为单位向量 (unit vector)。任何非零向量都可以单位化 (normalize):
2.3 ★ 点积的性质(含证明)——考试的”证明手感”从这里练起
对任意 和标量 :
| 性质 | 内容 |
|---|---|
| 对称性 (symmetry) | |
| 对加法的分配律 | |
| 标量齐次性 | |
| 正定性 (positive-definite) | ,且 |
证明:正定性
要证:,且取等当且仅当 。
证明:由定义 。每个 ,所以它们的和 。
又因为这是一组非负数之和,和为 0 当且仅当每一项都为 0,即所有 ,也就是 。关键技巧:遇到” 向量为零”,几乎都靠”平方和为零 每项为零”这一招。请记住它。
证明:分配律
看到没——把抽象的向量恒等式拆成分量上的求和,就变成了普通代数。这是证明这类等式的标准套路。
2.4 ★ 角度公式:点积的几何意义
点积和夹角 (取 )之间有黄金关系:
符号的直觉:
- :夹角是锐角(大致同向);
- :垂直;
- :钝角(大致反向)。
2.5 正交 (Orthogonality)
“正交”就是”垂直”的代数版本。它在 Stage 4(Gram–Schmidt、投影、最小二乘)是绝对主角,现在先把这个判据记牢。
2.6 ★★ Cauchy–Schwarz 不等式(含完整证明)——必考级别
Cauchy–Schwarz 不等式
对任意 :
取等当且仅当 平行(其中一个是另一个的标量倍)。
证明(经典的"判别式法",务必掌握)
若 ,两边都是 0,成立。下设 。
对任意实数 ,考虑非负量
展开(用分配律和对称性):这是关于 的二次函数,开口向上且恒 ,所以它的判别式 :
整理即得 ,开方得
取等发生在判别式 ,即存在 使 ,也就是 (两者平行)。
为什么这个证明值钱
“构造一个一定非负的二次式,逼它的判别式 “是数学里极常用的招数。这道证明几乎是 21-241 这类考试最爱考的类型之一,建议你能默写。
2.7 三角不等式 (Triangle Inequality)(含证明)
三角不等式
几何意义:两边之和大于第三边。
证明(直接用 Cauchy–Schwarz)
两边开方(都是非负数)即得结论。
套路提炼:证”范数不等式” 先平方变成点积,再用已知不等式(这里是 C–S)放缩。
2.8 ➕ 拓展:余弦相似度——你的数据科学会天天用到
角度公式在数据科学里有个超高频应用:余弦相似度 (cosine similarity)。把两段文本 / 两个用户 / 两张图片表示成高维向量后,用
衡量它们有多”像”(越接近 1 越相似)。搜索引擎、推荐系统、NLP 里的语义检索,底层就是这条 Stage 1 的公式。所以别小看点积——它是整个机器学习相似度度量的源头。
3. 复数 (Complex Numbers)
3.1 为什么 21-241 要专门讲复数 ★
因为实矩阵也可能有复特征值。例如平面旋转矩阵
的特征值是 ——纯虚数。到 Stage 6 你会发现,不允许用复数,半数矩阵就没法对角化。所以复数不是”额外内容”,是必备工具。
3.2 定义与四则运算
虚数单位: 满足 。一个复数 (complex number) 写作
是实部, 是虚部。运算规则就是”把 当未知数,记住 “:
3.3 复共轭 (Conjugate) 与模 (Modulus)
共轭:把虚部变号,。模(长度):
一个关键恒等式
这就是复数除法的秘密——分子分母同乘共轭,把分母变成实数:
共轭的常用性质(可自行验证,也是好的证明练习):
3.4 复平面 (Complex Plane)
把 画成平面上的点 ——横轴是实部,纵轴是虚部。这样复数就和 的向量一一对应:加法是向量加法,模就是到原点的距离。
3.5 ★ 极坐标形式与欧拉公式 (Euler’s Formula)
用”长度 + 角度”来描述复数往往更方便。设模 ,辐角(argument)(从正实轴逆时针量),则
欧拉公式把它写得极其优雅:
欧拉公式从哪来(直觉)
把 的泰勒级数代入 ,按实部/虚部分组,实部正好凑成 、虚部凑成 。它把指数、三角、复数三者统一,是数学里最美的公式之一( 时给出 )。
极坐标的最大好处:乘法变成”模相乘、角相加”:
所以乘一个单位复数 ,几何上就是旋转 角——这是 3.x 拓展会回到的重点。
3.6 ➕ De Moivre 定理与单位根 (Roots of Unity)
由”角相加”立刻得到 De Moivre 定理:
由此求 次单位根(满足 的复数):
它们是单位圆上均匀分布的 个点,构成一个正 边形的顶点。
直观:三次单位根
的三个根是 ,在单位圆上互成 ,组成一个正三角形。单位根在 FFT(快速傅里叶变换)、信号处理、数论里都是主角——和你做的密码学/数论会有交集。
3.7 复向量 (Complex Vectors)
把分量从实数换成复数,就得到 里的向量,例如
加法、数乘照旧。但”长度 / 内积”要小心改一下——见下。
3.8 ★★ 复内积为什么必须取共轭(高频易错点!)
这是 Stage 1 最容易被忽视、却最容易考的细节
在复数里,直接套用实数的点积 会出错。
看一个反例:取 。如果用实数公式算”长度的平方”:
一个非零向量”长度”居然是 0——荒谬!问题出在 把正贡献变负了。
修正办法:对其中一个向量取共轭。定义复内积 (Hermitian inner product):
(约定:对第二个变量取共轭;有些书对第一个取,差别只是惯例。)这样:
回到我们的例子:,于是 ,正常了。
实 vs 复 内积的对比(记住这张表)
实内积 复内积 定义 对称性 (共轭对称) 线性 两个变量都线性 一个变量线性,另一个共轭线性 自内积 (取共轭后才成立) 这个”取共轭”的修正,到 Stage 6 讲对称矩阵 / Hermitian 矩阵时会再次出现——记住它的来由,后面就不会懵。
4. 矩阵入门 (Matrices)
4.1 矩阵是什么 + 记号
一个 矩阵 (matrix) 是排成 行、 列的数表:
约定: 是第 行第 列的元素(先行后列,别记反)。
4.2 ★ 把矩阵看成”列向量的并排”——最有用的视角
把 的每一列看成一个向量 :
为什么强调"列"
因为矩阵–向量乘法 的本质就是”用 的分量去组合 的列”(见第 5 节)。养成”看到矩阵就看它的列”的习惯,会让你对后面的列空间、秩、线性变换都有直觉。
4.3 特殊矩阵(认脸)
| 名称 | 特征 |
|---|---|
| 方阵 (square) | 行数 = 列数() |
| 零矩阵 (zero) | 所有元素为 0 |
| 单位矩阵 (identity) | 对角线为 1,其余为 0;满足 |
| 对角矩阵 (diagonal) | 只有对角线可非零 |
| 上/下三角 (triangular) | 对角线一侧全 0 |
例如 ,它是矩阵世界里的”1”。
4.4 矩阵加法与数乘
同型矩阵(行列数相同)才能相加,逐元素进行;数乘也逐元素:
(矩阵乘法比这复杂得多,放到 Stage 2 正式展开——它不是逐元素相乘!)
4.5 转置 (Transpose) 与共轭转置 (Conjugate Transpose)
转置 :把行列对调,。例如
对复矩阵,我们通常要的是共轭转置(conjugate / Hermitian transpose),记作 或 :先转置,再把每个元素取共轭:
(这正是 3.8 里”复内积要取共轭”在矩阵层面的体现:。)
4.6 对称矩阵 / Hermitian 矩阵(预览)
- 对称矩阵 (symmetric):(实方阵,沿对角线镜像相等)。
- Hermitian 矩阵:(复方阵,对称矩阵的复版本)。
它们在 Stage 6 的谱定理 (spectral theorem) 里是绝对主角(对称矩阵一定能正交对角化,且特征值全为实数)。现在记住名字和定义即可。
5. 矩阵–向量乘法 (Matrix–Vector Multiplication) ★核心
这是 Stage 1 的最高潮,也是整门课的引擎。务必两种视角都吃透。
5.1 定义
设 是 ,,则 ,其第 个分量是:
维度匹配
有定义,当且仅当 的列数 = 的维数。结果的维数 = 的行数。记法:。中间的 必须对上。
5.2 ★★ 列视角 (Column Picture)——Strang 的灵魂
就是 各列的线性组合,权重恰好是 的分量:
把这句话刻进脑子
这是整套课程最重要的一句话。它意味着:
- 能被 取到的所有向量 = 各列的所有线性组合 = 的列空间 (column space)(Stage 3)。
- 方程 有解 落在 的列空间里 能写成 各列的线性组合。
你看,Stage 1 的”线性组合”在这里直接长成了解方程的判据。
5.3 行视角 (Row Picture)——每个分量是一个点积
换个角度看同一个运算: 的第 个分量,正是 的第 行与 的点积:
行视角在”解释每个方程”时方便(每行对应一个线性方程);列视角在”理解整体结构”时强大。两个都要会,随题切换。
5.4 两视角统一(同一个数,两种解读)
一个例子看穿两种视角
设 。
列视角:
行视角:
同一个答案,两条思路。做题用行视角算得快,理解结构用列视角想得深。
5.5 到底在问什么(预览 Stage 2/3)
把上面串起来,线性代数最核心的方程 可以用三种等价语言读:
- 方程组语言:一组 个线性方程, 个未知数;
- 列视角语言:能否用 的列组合出 ?系数就是要找的 ;
- 变换语言:有没有输入 ,经矩阵 作用后输出 ?
路标
Stage 2 教你怎么解(高斯消元);Stage 3 教你何时有解、解有多少(列空间、秩、零空间)。这三种读法会一路陪你到底。
5.6 ➕ 矩阵 = 线性变换(预览)
把 看成一个函数(把 的输入变成 的输出),它满足两条”线性”性质:
满足这两条的函数叫线性变换 (linear transformation)。核心事实:有限维下,线性变换和矩阵是一回事——这是 Stage 7 的主题。所以”矩阵”不只是数表,它是几何动作(旋转、缩放、投影、剪切……)。
6. 拓展 (Extensions) ➕
6.1 复数 = 平面旋转(把第 3 节和第 5 节连起来)
复数乘法”角相加”那条性质,其实就是 上的旋转矩阵。乘以 等价于左乘
验证:,正好是 的实部与虚部。复数和 旋转矩阵描述的是同一件事——这也解释了为什么旋转矩阵的特征值是 (Stage 6 伏笔)。
6.2 单位根的几何之美 ➕
次单位根在复平面上是正 边形的顶点,它们的和恒为 0(当 ):
直觉:对称分布的向量首尾相加,正好抵消。这个事实是 FFT 和很多数论恒等式的基石。
6.3 ➕ 可选:用 NumPy 验证两种视角(代码)
如果你想用代码确认”列视角 = 行视角”,下面这段会算同一个 两次:
import numpy as np
A = np.array([[1, 2],
[3, 4]])
x = np.array([5, 6])
# 行视角:直接矩阵乘向量
row_view = A @ x
# 列视角:用 x 的分量去组合 A 的列
col_view = x[0] * A[:, 0] + x[1] * A[:, 1]
print("行视角:", row_view) # [17 39]
print("列视角:", col_view) # [17 39]
print("一致吗:", np.allclose(row_view, col_view)) # True库安装(使用国内镜像)
这段代码需要
numpy。用清华镜像安装(命令行执行):pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
7. 例题精讲 (Worked Examples)
例 1 — 线性组合(计算)
问: 是否是 与 的线性组合?
解:设 ,得方程组
两式相减:,回代 。验证: ✓。是,且组合唯一。
例 2 — 夹角(计算)
问:求 的夹角。
解:;;。
例 3 — 用 Cauchy–Schwarz 证经典不等式(证明)
问:对任意实数 ,证明 。
解:取 。由 Cauchy–Schwarz :
取等当 ,即 。这道题示范了 C–S 的威力:给”和的平方”找一个 的搭档,就能放缩。这类技巧考试常见。
例 4 — 复数运算 + 极坐标(计算)
(a) 算 :。
(b) 把 化为极坐标:模 ;它在第二象限,,故 。所以
例 5 — De Moivre 求高次幂(计算)
问:求 。
解:(模 ,角 )。于是
用极坐标比硬乘八次快太多——这就是复数极坐标形式的价值。
例 6 — 复内积为何取共轭(概念)
问:对 ,分别用”实公式”和”复内积”算自内积,说明区别。
解:实公式 (荒谬:非零向量长度为 0)。复内积 ,故 (正确)。结论:复向量必须用带共轭的内积。
例 7 — 矩阵–向量乘法(两视角对照)
问:,求 。
列视角:
行视角:第 1 行 ;第 2 行 。所以 ✓。
8. 衔接 21-241:考试会怎么考 + 自测
8.1 从 Stage 1 看 21-241 的考试
根据课程特点(HW 偏计算、考试有硬证明、时间压力中等),Stage 1 的内容在考试里通常以这几种形式出现:
- 计算题(送分):点积、长度、夹角、复数运算、矩阵–向量乘——一定要又快又准,把时间留给证明。
- 证明题(拉分):最可能的就是 Cauchy–Schwarz、三角不等式、点积/内积性质,以及”用这些性质推一个新结论”。这些证明建议练到能默写(见 §2.3 / §2.6 / §2.7)。
- 概念陷阱:复内积忘了取共轭、行列向量搞反、维度不匹配——这些是失分重灾区。
考试策略(呼应课程评价)
课程反馈说”卡在证明时,最好回头检查其它题”——这是对的。先把所有计算题做对锁分,再攻证明;证明卡住就先写出”已知 / 要证 / 思路”,拿步骤分,别空着。时间压力是中等,不必慌乱赶进度。
8.2 自测题(先做,再点开答案)
自测 1(计算)
求 与 的:(a) 点积;(b) 各自长度;(c) 夹角余弦。
答案 1
(a) 。(b) ,。(c) 。
自测 2(证明,重要)
证明:若 对所有 成立,则 。
答案 2(经典证明技巧:特殊取值)
既然对所有 都成立,那就特意取 。于是 。由点积的正定性(§2.3),。
技巧:“对所有 成立”时,挑一个最有用的 代进去(这里取 )是万能套路。
自测 3(复数)
(a) 化简 为 形式。(b) 求 。
答案 3
(a) 分子分母同乘共轭:。
(b) ,故 。直接算:,所以 。
自测 4(证明,放缩)
用三角不等式证明:对任意 ,有 (反向三角不等式)。
答案 4
由 及三角不等式:,即 。
对称地交换 :。两个合起来就是 。
自测 5(矩阵–向量,两视角)
。用列视角和行视角各算一遍 。
答案 5
列视角:。
行视角:第 1 行 ;第 2 行 。得 ✓。
9. 一页速记 + 进入 Stage 2 的检查清单
Stage 1 速记卡
- 向量:几何箭头 = 有序数组();两种运算:加法、数乘。
- 线性组合 = 全课核心动词;其全体 = span。
- 点积 ;长度 ;夹角 ;正交 点积 。
- Cauchy–Schwarz ,三角不等式 —— 会证。
- 复数 ,;,;欧拉 ;乘法 = 模乘角加。
- 复内积要取共轭:(否则长度会出错)。
- 矩阵 = 列向量并排;转置 ,复数用共轭转置 。
- 两视角:列视角 = 各列的线性组合(★最重要);行视角 = 每个分量是一个点积。
- = ” 能否由 的列组合出来”。
进入 Stage 2 前,确认你能:
- 不看笔记说出” = 各列的线性组合”并举例;
- 独立证明 Cauchy–Schwarz 和三角不等式;
- 解释复内积为什么要取共轭(并举反例);
- 把复数在”直角坐标”与”极坐标 / 欧拉形式”之间自由转换;
- 用列视角和行视角各算一次 ,结果一致。
全部打勾 → 你已经为 Stage 2(高斯消元、矩阵乘法、逆矩阵) 准备好了。
一句话收尾
Stage 1 看起来在讲”基础概念”,其实埋下了整门课的两颗种子:线性组合(代数主线)和 的列视角(几何主线)。把这两颗种子养好,后面的列空间、秩、特征值、SVD 都会顺理成章地长出来。