Stage 1 — 向量、复数与矩阵入门 (Vectors, Complex Numbers & Intro to Matrices)

这个 Stage 你将学到什么

这是整门线性代数的地基层。看完之后你应该能:

  • 把”向量 (vector)“同时当成几何箭头有序数组两种东西来想;
  • 熟练做线性组合 (linear combination)——这是后面所有内容的核心动词;
  • 点积 (dot product) 算长度、角度、判断正交,并证明 Cauchy–Schwarz 与三角不等式;
  • 复数 (complex numbers) 玩熟(21-241 明确要求,后面特征值会用到);
  • 理解矩阵 (matrix) 的本质,以及矩阵–向量乘法 的两种视角(这是 Strang 教学的灵魂,也是理解 的钥匙)。

对应 21-241 官方 topic:complex numbers, real and complex vectors and matrices。
对应 Strang《Introduction to Linear Algebra》:Ch 1 + 复数章前半。

怎么用这份笔记(尤其是为了 21-241)

21-241 的特点是 HW 偏计算(难度 4)、但考试有硬证明(难度 7)。所以我在每个概念后面都尽量配了性质 + 证明,不只是公式。

  • 标 ★ 的是必须吃透的核心。
  • 标 ➕ 的是拓展(超出 21-241 但有价值,尤其对你的 CS / 数据科学方向)。
  • > [!question] 是自测题,答案是可折叠 callout(在 Obsidian 里点一下展开),先自己做再看。
  • 读证明时别只看”对不对”,要看”为什么这一步能这么走”——这正是考试要你复现的能力。

0. 先建立一个心态:线性代数到底在研究什么

一句话:线性代数研究”线性”的世界——也就是只允许两种操作的世界:加法()和数乘()。

听起来很简单,但奇迹在于:几乎所有”光滑”的东西在局部都是线性的(微积分里的导数就是”线性近似”),所以线性代数成了机器学习、图形学、密码学、微分方程、算法的通用语言。Strang 有句名言,大意是线性代数”自然地分成计算形式结构两部分”——Stage 1~2 偏计算,从 Stage 3 开始转向抽象结构。

一条贯穿全书的主线(先记住,后面会反复出现)

就是 各列的线性组合。”
这一句话会在 Stage 1 出现、在 Stage 3 变成”列空间 (column space)“、在 Stage 6 变成特征向量。现在记不深没关系,但请把它当成北极星。


1. 向量 (Vectors)

1.1 两种看向量的方式 ★

同一个向量,有两种等价的”长相”,学线代必须能在两者之间自由切换:

  1. 几何视角:一个有方向长度的箭头(可以平移,只看相对位移)。
  2. 代数视角:一列有序的数,例如

我们把所有” 个实数排成一列”的集合记作 (读作 “R-n”)。所以上面的 。类似地有 (平面)、(100 维,无法画,但代数照样算)。

行向量 vs 列向量

默认情况下,“向量”指列向量 (column vector)。行向量 (row vector) 是它的转置 。这个区分在矩阵乘法里非常关键,别混

1.2 向量的两种基本运算

,(我们把 这种单个的数叫标量 (scalar)):

几何意义:

  • 加法遵循平行四边形法则(parallelogram law):把 首尾相接,对角线就是
  • 数乘缩放: 拉长, 缩短, 反向。

1.3 ★ 线性组合 (Linear Combination)——本课最重要的”动词”

给定一组向量 和一组标量 ,它们的线性组合就是:

为什么这是核心

线性代数里几乎每个问题都能翻译成关于线性组合的问题:

  • “解方程 ” = ” 能不能写成 各列的线性组合?”
  • “这些向量张成多大空间” = “它们所有线性组合构成什么?”
  • “线性无关” = “除了全取 0,还有别的线性组合等于 吗?”

你以后会发现:把题目翻译成”线性组合”的语言,往往就解开了一半。

1.4 张成 (Span)——线性组合的”全体” ➕(预览)

所有可能线性组合收集起来,得到的集合叫它们的张成 (span):

几何上:

  • 一个非零向量的 span 是一条过原点的直线;
  • 两个不平行向量的 span 是一个过原点的平面

这里只是埋个种子

“span” 到 Stage 3 会正式发展成子空间 (subspace)列空间。现在你只要有”线性组合的全体 = 一片几何区域”这个直觉就够了。

1.5 线性无关的直觉 ➕(预览)

如果一组向量里,没有任何一个能被其它几个的线性组合表示出来,就说它们线性无关 (linearly independent)。直觉:每个向量都提供了”新方向”,没有冗余。

严格定义(Stage 3 会深入): 线性无关 方程

只有平凡解


2. 点积、长度、角度 (Dot Product, Norm, Angle)

向量的加法和数乘还不够——我们想谈”长度”和”夹角”,这需要一个新工具:点积。

2.1 点积 (Dot Product / Inner Product) ★

:

注意结果是一个标量,不是向量。例如

2.2 长度 / 范数 (Norm) 与单位向量

向量的长度(也叫范数,norm)定义为:

这其实就是勾股定理推广到 。若 ,称 单位向量 (unit vector)。任何非零向量都可以单位化 (normalize):

2.3 ★ 点积的性质(含证明)——考试的”证明手感”从这里练起

对任意 和标量 :

性质内容
对称性 (symmetry)
对加法的分配律
标量齐次性
正定性 (positive-definite),且

证明:正定性

要证:,且取等当且仅当
证明:由定义 。每个 ,所以它们的和
又因为这是一组非负数之和,和为 0 当且仅当每一项都为 0,即所有 ,也就是

关键技巧:遇到” 向量为零”,几乎都靠”平方和为零 每项为零”这一招。请记住它。

证明:分配律

看到没——把抽象的向量恒等式拆成分量上的求和,就变成了普通代数。这是证明这类等式的标准套路。

2.4 ★ 角度公式:点积的几何意义

点积和夹角 (取 )之间有黄金关系:

符号的直觉:

  • :夹角是锐角(大致同向);
  • :垂直;
  • :钝角(大致反向)。

2.5 正交 (Orthogonality)

“正交”就是”垂直”的代数版本。它在 Stage 4(Gram–Schmidt、投影、最小二乘)是绝对主角,现在先把这个判据记牢。

2.6 ★★ Cauchy–Schwarz 不等式(含完整证明)——必考级别

Cauchy–Schwarz 不等式

对任意 :

取等当且仅当 平行(其中一个是另一个的标量倍)。

证明(经典的"判别式法",务必掌握)

,两边都是 0,成立。下设
对任意实数 ,考虑非负量

展开(用分配律和对称性):

这是关于 的二次函数,开口向上且恒 ,所以它的判别式 :

整理即得 ,开方得

取等发生在判别式 ,即存在 使 ,也就是 (两者平行)。

为什么这个证明值钱

构造一个一定非负的二次式,逼它的判别式 “是数学里极常用的招数。这道证明几乎是 21-241 这类考试最爱考的类型之一,建议你能默写

2.7 三角不等式 (Triangle Inequality)(含证明)

三角不等式


几何意义:两边之和大于第三边

证明(直接用 Cauchy–Schwarz)

两边开方(都是非负数)即得结论。

套路提炼:证”范数不等式” 平方变成点积,再用已知不等式(这里是 C–S)放缩。

2.8 ➕ 拓展:余弦相似度——你的数据科学会天天用到

角度公式在数据科学里有个超高频应用:余弦相似度 (cosine similarity)。把两段文本 / 两个用户 / 两张图片表示成高维向量后,用

衡量它们有多”像”(越接近 1 越相似)。搜索引擎、推荐系统、NLP 里的语义检索,底层就是这条 Stage 1 的公式。所以别小看点积——它是整个机器学习相似度度量的源头。


3. 复数 (Complex Numbers)

3.1 为什么 21-241 要专门讲复数 ★

因为实矩阵也可能有复特征值。例如平面旋转矩阵

的特征值是 ——纯虚数。到 Stage 6 你会发现,不允许用复数,半数矩阵就没法对角化。所以复数不是”额外内容”,是必备工具。

3.2 定义与四则运算

虚数单位: 满足 。一个复数 (complex number) 写作

实部,虚部。运算规则就是”把 当未知数,记住 “:

3.3 复共轭 (Conjugate) 与模 (Modulus)

共轭:把虚部变号,(长度):

一个关键恒等式


这就是复数除法的秘密——分子分母同乘共轭,把分母变成实数:

共轭的常用性质(可自行验证,也是好的证明练习):

3.4 复平面 (Complex Plane)

画成平面上的点 ——横轴是实部,纵轴是虚部。这样复数就和 的向量一一对应:加法是向量加法,模就是到原点的距离。

3.5 ★ 极坐标形式与欧拉公式 (Euler’s Formula)

用”长度 + 角度”来描述复数往往更方便。设模 ,辐角(argument)(从正实轴逆时针量),则

欧拉公式把它写得极其优雅:

欧拉公式从哪来(直觉)

的泰勒级数代入 ,按实部/虚部分组,实部正好凑成 、虚部凑成 。它把指数、三角、复数三者统一,是数学里最美的公式之一( 时给出 )。

极坐标的最大好处:乘法变成”模相乘、角相加”:

所以乘一个单位复数 ,几何上就是旋转 ——这是 3.x 拓展会回到的重点。

3.6 ➕ De Moivre 定理与单位根 (Roots of Unity)

由”角相加”立刻得到 De Moivre 定理:

由此求 次单位根(满足 的复数):

它们是单位圆上均匀分布 个点,构成一个正 边形的顶点。

直观:三次单位根

的三个根是 ,在单位圆上互成 ,组成一个正三角形。单位根在 FFT(快速傅里叶变换)、信号处理、数论里都是主角——和你做的密码学/数论会有交集。

3.7 复向量 (Complex Vectors)

把分量从实数换成复数,就得到 里的向量,例如

加法、数乘照旧。但”长度 / 内积”要小心改一下——见下。

3.8 ★★ 复内积为什么必须取共轭(高频易错点!)

这是 Stage 1 最容易被忽视、却最容易考的细节

在复数里,直接套用实数的点积 会出错

看一个反例:取 。如果用实数公式算”长度的平方”:

一个非零向量”长度”居然是 0——荒谬!问题出在 把正贡献变负了。

修正办法:对其中一个向量取共轭。定义复内积 (Hermitian inner product):

(约定:对第二个变量取共轭;有些书对第一个取,差别只是惯例。)这样:

回到我们的例子:,于是 ,正常了

实 vs 复 内积的对比(记住这张表)

实内积复内积
定义
对称性(共轭对称)
线性两个变量都线性一个变量线性,另一个共轭线性
自内积(取共轭后才成立)

这个”取共轭”的修正,到 Stage 6 讲对称矩阵 / Hermitian 矩阵时会再次出现——记住它的来由,后面就不会懵。


4. 矩阵入门 (Matrices)

4.1 矩阵是什么 + 记号

一个 矩阵 (matrix) 是排成 行、 列的数表:

约定: 是第 行第 的元素(先行后列,别记反)。

4.2 ★ 把矩阵看成”列向量的并排”——最有用的视角

的每一列看成一个向量 :

为什么强调"列"

因为矩阵–向量乘法 的本质就是” 的分量去组合 的列”(见第 5 节)。养成”看到矩阵就看它的列”的习惯,会让你对后面的列空间、秩、线性变换都有直觉。

4.3 特殊矩阵(认脸)

名称特征
方阵 (square)行数 = 列数()
零矩阵 (zero) 所有元素为 0
单位矩阵 (identity) 对角线为 1,其余为 0;满足
对角矩阵 (diagonal)只有对角线可非零
上/下三角 (triangular)对角线一侧全 0

例如 ,它是矩阵世界里的”1”。

4.4 矩阵加法与数乘

同型矩阵(行列数相同)才能相加,逐元素进行;数乘也逐元素:

(矩阵乘法比这复杂得多,放到 Stage 2 正式展开——它不是逐元素相乘!)

4.5 转置 (Transpose) 与共轭转置 (Conjugate Transpose)

转置 :把行列对调,。例如

复矩阵,我们通常要的是共轭转置(conjugate / Hermitian transpose),记作 :先转置,再把每个元素取共轭:

(这正是 3.8 里”复内积要取共轭”在矩阵层面的体现:。)

4.6 对称矩阵 / Hermitian 矩阵(预览)

  • 对称矩阵 (symmetric):(实方阵,沿对角线镜像相等)。
  • Hermitian 矩阵:(复方阵,对称矩阵的复版本)。

它们在 Stage 6 的谱定理 (spectral theorem) 里是绝对主角(对称矩阵一定能正交对角化,且特征值全为实数)。现在记住名字和定义即可。


5. 矩阵–向量乘法 (Matrix–Vector Multiplication) ★核心

这是 Stage 1 的最高潮,也是整门课的引擎。务必两种视角都吃透。

5.1 定义

,,则 ,其第 个分量是:

维度匹配

有定义,当且仅当 的列数 = 的维数。结果的维数 = 的行数。记法:。中间的 必须对上。

5.2 ★★ 列视角 (Column Picture)——Strang 的灵魂

就是 各列的线性组合,权重恰好是 的分量:

把这句话刻进脑子

这是整套课程最重要的一句话。它意味着:

  • 能被 取到的所有向量 = 各列的所有线性组合 = 列空间 (column space)(Stage 3)。
  • 方程 有解 落在 的列空间里 能写成 各列的线性组合。

你看,Stage 1 的”线性组合”在这里直接长成了解方程的判据。

5.3 行视角 (Row Picture)——每个分量是一个点积

换个角度看同一个运算: 个分量,正是 的点积:

行视角在”解释每个方程”时方便(每行对应一个线性方程);列视角在”理解整体结构”时强大。两个都要会,随题切换。

5.4 两视角统一(同一个数,两种解读)

一个例子看穿两种视角

列视角:

行视角:

同一个答案,两条思路。做题用行视角算得快,理解结构用列视角想得深。

5.5 到底在问什么(预览 Stage 2/3)

把上面串起来,线性代数最核心的方程 可以用三种等价语言读:

  1. 方程组语言:一组 个线性方程, 个未知数;
  2. 列视角语言:能否用 的列组合出 ?系数就是要找的 ;
  3. 变换语言:有没有输入 ,经矩阵 作用后输出 ?

路标

Stage 2 教你怎么解(高斯消元);Stage 3 教你何时有解、解有多少(列空间、秩、零空间)。这三种读法会一路陪你到底。

5.6 ➕ 矩阵 = 线性变换(预览)

看成一个函数(把 的输入变成 的输出),它满足两条”线性”性质:

满足这两条的函数叫线性变换 (linear transformation)核心事实:有限维下,线性变换和矩阵是一回事——这是 Stage 7 的主题。所以”矩阵”不只是数表,它是几何动作(旋转、缩放、投影、剪切……)。


6. 拓展 (Extensions) ➕

6.1 复数 = 平面旋转(把第 3 节和第 5 节连起来)

复数乘法”角相加”那条性质,其实就是 上的旋转矩阵。乘以 等价于左乘

验证:,正好是 的实部与虚部。复数和 旋转矩阵描述的是同一件事——这也解释了为什么旋转矩阵的特征值是 (Stage 6 伏笔)。

6.2 单位根的几何之美 ➕

次单位根在复平面上是正 边形的顶点,它们的和恒为 0(当 ):

直觉:对称分布的向量首尾相加,正好抵消。这个事实是 FFT 和很多数论恒等式的基石。

6.3 ➕ 可选:用 NumPy 验证两种视角(代码)

如果你想用代码确认”列视角 = 行视角”,下面这段会算同一个 两次:

import numpy as np
 
A = np.array([[1, 2],
              [3, 4]])
x = np.array([5, 6])
 
# 行视角:直接矩阵乘向量
row_view = A @ x
 
# 列视角:用 x 的分量去组合 A 的列
col_view = x[0] * A[:, 0] + x[1] * A[:, 1]
 
print("行视角:", row_view)   # [17 39]
print("列视角:", col_view)   # [17 39]
print("一致吗:", np.allclose(row_view, col_view))  # True

库安装(使用国内镜像)

这段代码需要 numpy。用清华镜像安装(命令行执行):

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

7. 例题精讲 (Worked Examples)

例 1 — 线性组合(计算)

: 是否是 的线性组合?
:设 ,得方程组

两式相减:,回代 验证: ✓。,且组合唯一。

例 2 — 夹角(计算)

:求 的夹角。
:;;

例 3 — 用 Cauchy–Schwarz 证经典不等式(证明)

:对任意实数 ,证明
:取 。由 Cauchy–Schwarz :

取等,即

这道题示范了 C–S 的威力:给”和的平方”找一个 的搭档,就能放缩。这类技巧考试常见。

例 4 — 复数运算 + 极坐标(计算)

(a):
(b) 化为极坐标:模 ;它在第二象限,,故 。所以

例 5 — De Moivre 求高次幂(计算)

:求
:(模 ,角 )。于是

用极坐标比硬乘八次快太多——这就是复数极坐标形式的价值

例 6 — 复内积为何取共轭(概念)

:对 ,分别用”实公式”和”复内积”算自内积,说明区别。
:实公式 (荒谬:非零向量长度为 0)。复内积 ,故 (正确)。结论:复向量必须用带共轭的内积。

例 7 — 矩阵–向量乘法(两视角对照)

:,求
列视角:

行视角:第 1 行 ;第 2 行 。所以 ✓。


8. 衔接 21-241:考试会怎么考 + 自测

8.1 从 Stage 1 看 21-241 的考试

根据课程特点(HW 偏计算、考试有硬证明、时间压力中等),Stage 1 的内容在考试里通常以这几种形式出现:

  • 计算题(送分):点积、长度、夹角、复数运算、矩阵–向量乘——一定要又快又准,把时间留给证明。
  • 证明题(拉分):最可能的就是 Cauchy–Schwarz、三角不等式、点积/内积性质,以及”用这些性质推一个新结论”。这些证明建议练到能默写(见 §2.3 / §2.6 / §2.7)。
  • 概念陷阱:复内积忘了取共轭、行列向量搞反、维度不匹配——这些是失分重灾区。

考试策略(呼应课程评价)

课程反馈说”卡在证明时,最好回头检查其它题”——这是对的。先把所有计算题做对锁分,再攻证明;证明卡住就先写出”已知 / 要证 / 思路”,拿步骤分,别空着。时间压力是中等,不必慌乱赶进度。

8.2 自测题(先做,再点开答案)

自测 1(计算)

的:(a) 点积;(b) 各自长度;(c) 夹角余弦。

自测 2(证明,重要)

证明:若 所有 成立,则

自测 3(复数)

(a) 化简 形式。(b) 求

自测 4(证明,放缩)

用三角不等式证明:对任意 ,有 (反向三角不等式)。

自测 5(矩阵–向量,两视角)

。用列视角行视角各算一遍


9. 一页速记 + 进入 Stage 2 的检查清单

Stage 1 速记卡

  • 向量:几何箭头 = 有序数组();两种运算:加法、数乘。
  • 线性组合 = 全课核心动词;其全体 = span
  • 点积 ;长度 ;夹角 ;正交 点积
  • Cauchy–Schwarz ,三角不等式 —— 会证。
  • 复数 ,;,;欧拉 ;乘法 = 模乘角加。
  • 复内积取共轭:(否则长度会出错)。
  • 矩阵 = 列向量并排;转置 ,复数用共轭转置
  • 两视角:列视角 = 各列的线性组合(★最重要);行视角 = 每个分量是一个点积。
  • = ” 能否由 的列组合出来”。

进入 Stage 2 前,确认你能:

  • 不看笔记说出” = 各列的线性组合”并举例;
  • 独立证明 Cauchy–Schwarz 和三角不等式;
  • 解释复内积为什么要取共轭(并举反例);
  • 把复数在”直角坐标”与”极坐标 / 欧拉形式”之间自由转换;
  • 用列视角和行视角各算一次 ,结果一致。

全部打勾 → 你已经为 Stage 2(高斯消元、矩阵乘法、逆矩阵) 准备好了。


一句话收尾

Stage 1 看起来在讲”基础概念”,其实埋下了整门课的两颗种子:线性组合(代数主线)和 的列视角(几何主线)。把这两颗种子养好,后面的列空间、秩、特征值、SVD 都会顺理成章地长出来。