FPGA神经网络数学基础1-编程实验室

向量空间

本章的问题背景：之前我们介绍了用高斯消元、LU分解从计算层面求解Ax=b，解决了怎么算的问题，但没有回答解的结构是什么、为什么解是这样的问题。消元只能给出单个解，而线性代数的核心是空间结构。方程组的解不是孤立的点，而是空间中的集合。齐次方程Ax=0的解是一个子空间。所有线性问题的本质，都是向量空间与子空间的运算。

向量空间和子空间

a）本节先定义向量空间，再定义子空间，为后续列空间、零空间、解空间打下全部基础。消元是计算工具，解决怎么解；向量空间是理论工具，解决解是什么结构；本节难度更高，因为从具体计算进入抽象结构。

b）
1）标准向量空间的定义

2）向量空间的两大基本运算

3）向量空间的8条公理（向量空间对加法、数乘封闭，封闭性等于运算不出空间）

4）扩展向量空间

5）子空间

子空间=大空间里的小空间，必须过原点（包含零向量），平面/直线只要过原点，就是子空间。

6）

c）矩阵A的列空间
1）问题：Ax=b什么时候有解？所有能让方程有解的b到底是什么集合？最终我们会知道，能让方程有解的b，就是矩阵A列向量的所有线性组合，这个集合就是列空间，它是Rm的子空间。
2）超定方程组的可解性规律

3）

4）列空间一定包含A的所有列；列空间一定包含零向量（满足子空间必要条件）；齐次方程Ax=0永远有解（零解）。
5）

6）列空间是子空间的严格证明

7）列空间是统一描述所有矩阵方程可解性的工具
8）总结

d）矩阵A的零空间
1）本小节背景：上小节，我们讨论了Ax=b有解时，b必须是什么集合（列的线性组合）。本小节从对偶视角出发，讨论另一个问题，当b=0（齐次方程）时，解x是什么集合？这个集合就是零空间N(A)，它是理解线性方程组解结构、向量线性相关性的核心入口。
2）零空间的引入（列空间的对偶）

3）零空间的严格定义

4）零空间是子空间的严格证明（封闭性）

5）最小零空间（列线性无关）

6）非平凡零空间（列线性相关）

7）总结

8）补充

方程组Ax=0和Ax=b的解

a）本节背景：之前讨论消元法只聚焦可逆方阵，方阵满主元、存在逆，Ax=b永远有唯一解。但工程、数据、神经网络绝大多数系数矩阵是矩形阵（行数≠列）、奇异方阵（行线性相关，主元不全），无法求逆，此时出现两类新问题：Ax=b不一定有解；有解时解不止一个。本节引入行最简矩阵R（高斯消元最终最简形式），拆分方程组为齐次Ax=0（零空间，无穷解集合）+ 非齐次Ax=b，核心结论是非齐次全部解=一个特解+齐次通解。

b）
1）衔接可逆矩阵，引出奇异/矩形矩阵与行最简R

2）可逆、奇异矩阵的零空间和列空间对比

3）完全解核心定理

4）Ax=b可解判定和3×4通用矩阵举例

5）总结

c）阶梯矩阵U和行最简矩阵R
1）本小节背景：之前讨论的A=LU分解仅限无需行交换、可逆方阵，默认每一列都能选出主元。但实际工程、神经网络权重大多是m×n非方阵或奇异方阵。化简时会出现某一列主元候选位置及下方元素全为0，无法通过行交换换入主元，只能向右移动列序号，在下一列选取主元，由此诞生阶梯矩阵U。U仅能消去主元下方元素，为进一步化简，对U做两步处理：主元归一化、主元上方元素归零，得到行最简矩阵R=rref(A)。

2）广义分解定理PA=LU

3）由U化简行最简R，两步变换+可逆方阵结论

4）R与零空间的关联

5）总结

d）主变量和自由变量
1）本小节背景：前面已经通过初等行变换得到行最简矩阵R，Ax=0与Rx=0同解，但只完成矩阵化简，无法快速写出齐次方程组全部解。原始方程未知数数量常常大于方程数量（n>m，列数＞行数），无法全部被主元约束。变量自然分为两类：受主元方程严格限定的主变量、可以任意自由赋值的自由变量。本节依托R拆分变量，给出标准化求零空间基的固定步骤。
2）主变量、自由变量划分规则

3）自由赋值法求解齐次通解

4）快速构造N矩阵小技巧

5）n>m（未知数＞方程数）必有非零解

e）求解Ax = b , Ux = c, Rx = d
1）本小节背景：上节讨论了通过行最简区分主变量和自由变量，用自由变量求出零空间全部解。但机器学习训练核心是非齐次方程Ax=b(b≠0)，有两个难点：①非齐次不一定有解，即b不在C(A)时方程矛盾无解；②有解时解不构成子空间，无法只用零空间描述全部解。
2）非齐次必须同步变换右端b，由[A | b]→[U | c]

3）列空间两种等价描述（代数约束 + 向量张成）

4）

5）再化简[U | c] → [R | d]，行最简快速读取特解

6）总结

7）实战例子

f）补充
1）

2）

3）

4）

5）

6）

7）

8）

9）

10）

11）

12）

13）

14）

线性无关、基和维数

a）本节背景

b）
1）线性无关的核心定义

2）线性相关性的几何直观

3）线性无关与零空间的等价关系

4）阶梯矩阵的线性无关性

5）核心定理

6）总结

c）张成子空间
1）本小节背景：上一小节解决了向量组有没有冗余的问题（线性相关/线性无关），但还没回答两个核心问题：①一组向量能覆盖多大的空间，即所有可能的线性组合构成什么集合？②用最少多少个向量就能完整描述这个空间？这两个问题引出了两个核心概念，张成子空间（覆盖多大）和基（最少多少个）。基是线性代数的坐标系，空间中的每个向量都可以唯一地表示为基向量的线性组合，这是后续坐标转换、线性变换、特征值分解等所有内容的基础。
2）张成子空间定义

3）矩阵的列空间和行空间

4）标准基张成全空间

d）向量空间的基
1）基的定义及两个核心性质

2）基的表示唯一性

3）平面基的直观理解

4）列空间基的通用求法

e）向量空间的维数
1）本小节背景：基中向量的个数是空间本身的性质，与基的选择无关，这个数就是维数，它描述了空间的自由度。
2）维数的核心定义

3）基的个数唯一性

4）基的构造定理

f）补充
1）

2）

3）

4）

5）

6）

7）

8）

9）

10）

11）

12）

四种基本子空间

a）本节背景

b）四个基本子空间的定义与所属空间

→补充
1）

2）四个基本子空间

3）维数的直观推导

c）A的行空间
1）本小节背景：高斯消元法的每一步都是行的线性组合，而行的线性组合不会改变行空间。也就是说，A和它的阶梯形U、行最简形R有完全相同的行空间。阶梯形U中的r个非零行就是行空间的一组基。
2）

d）A的零空间
1）本小节背景：高斯消元法是可逆变换，不改变线性方程组的解，所以Ax=0和Ux=0、Rx=0有完全相同的解空间。
2）

e）A的列空间
1）本小节背景：A和U的列空间不同（消元是行变换，会改变列向量），但A和U的列之间有完全相同的线性相关关系。也就是说，如果A的某几列线性相关，那么U的对应列也线性相关，且系数相同；反之亦然。
2）

f）A的左零空间

g）逆的存在性
1）本小节背景：我们通过秩的概念刻画了矩阵的四个基本子空间。接下来通过秩，解决线性代数的核心问题：什么样的矩阵有逆矩阵？之前，我们对逆矩阵的认识停留在“方阵且行列式不为零”，但其有局限：为什么非反阵没有双边逆？非方阵是否可以有某种单边逆？逆矩阵的存在性和线性方程组解的性质如何联系？本节的核心是建立秩-逆存在性-线性方程组解之间的对应关系。
2）左逆与右逆的基本性质

3）行满秩与右逆（解的存在性）

4）列满秩与左逆（解的唯一性）

5）

6）单边逆的显式公式

7）方阵的双边逆

8）范德蒙德矩阵

9）总结

h）总结
1）

2）

3）

4）

5）

6）

7）

8）

9）

10）

图与网络

线性变换

神经网络的数学基础

神经网络所需的函数

a）一次函数

b）二次函数

c）单位阶跃函数

d）指数函数与sigmoid函数

e）正态分布概率密度函数

f）

有助于理解神经网络的数列和递推关系式子

a）问题背景：神经网络的计算特征是按层、按神经元顺序计算，后一层的值完全依赖前一层的结果，这种顺序依赖、逐步推导的逻辑，在数学上正好对应数列与递推关系式。同时，计算机/硬件不擅长复杂导数计算，但极擅长递推迭代，而神经网络的核心训练算法：误差反向传播BP，本质就是递推关系式的硬件落地。本节的核心任务是：1）用数列描述神经网络分层、按单元的有序计算；2）用递推关系式刻画层间信号依赖；3）证明递推是计算机最擅长的计算，为BP算法打下数学与硬件基础。

b）神经网络前向传播、反向传播都是从前往后/从后往前逐步算，完全符合递推逻辑。硬件计算痛点是求导需要复杂运算，递推只需要迭代赋值，效率提升百倍。

c）

d）通项公式

e）递推公式

f）联立递推

g）要点：递推是硬件最优计算范式，神经网络训练/推理靠递推。

神经网络经常用到的Σ符号

a）

b）

有助于理解神经网络的向量基础

a）向量内积

b）柯西-施瓦茨不等式

c）内积的坐标表示

→内积空间

→内积的定义

d）

e）张量

有助于理解神经网络的矩阵基础

神经网络的导数基础

a）本节背景：神经网络的自学习，数学本质就是对权重w、偏置b做最优化，也就是最小化预测值与真实值的误差（代价函数）。而求导是求解函数最小值、实现梯度下降、误差反向传播的唯一核心数学工具。没有导数，神经网络就无法自主更新参数、无法学习。本节讨论导数定义、核心公式、线性性质、Sigmoid求导、函数最小值的导数条件。

b）导数的定义

c）导数符号

d）导数的性质

e）分数函数导数 + Sigmoid函数导数（激活函数核心）

Sigmoid是神经网络最早、最基础的激活函数，其导数不用重新计算，直接用自身函数值就能算出。

f）最小值条件（导数为0不一定是最小值，可能是极大值、驻点）

神经网络的偏导数基础

a）本节背景：前面讲述了单变量函数的导数，但神经网络的参数是成千上万的权重w和偏置b，代价函数是多变量函数，单变量导数完全无法描述误差随某一个权重/偏置的变化率。因此本节把单变量导数推广到多变量，定义偏导数，给出多变量函数最小值的数学条件，补充带约束的优化方法。

b）多变量函数

c）偏导数的定义
1）求导的方法也同样适用于多变量函数的情况｡但是,由于有多个变量, 所以必须指明对哪一个变量进行求导｡在这个意义上,关于某个特定变量的导数就称为偏导数(partial derivative)｡
2）

d）多变量函数的最小值条件

e）拉格朗日乘数法

误差反向传播法必需的链式法则

a）本节背景：神经网络单个神经元输出=激活 (加权和)，加权和是输入的线性函数，激活是 z 的非线性函数，天然构成复合函数。多层网络层层嵌套，是超长复合函数。想要用梯度下降更新w、b、求解代价函数对参数的偏导（BP算法核心），必须依靠链式法则拆分复杂求导。本节所有函数充分光滑，保证各阶导数存在，是法则适用的前提。

b）神经网络和复合函数

c）单变量链式法则

d）多变量链式法则

梯度下降法的基础：多变量函数的近似公式

a）本节背景

b）

c）单变量近似公式

d）二元函数近似

e）多元函数近似

f）总结

g）补充

梯度下降法的含义与公式

a）本节背景：之前已经完整学习了偏导数、多变量函数一阶近似、向量内积，而本节综合使用它们，引出梯度下降法，也是整个深度学习最核心的算法。应用数学最重要的任务之一是找函数最小值。多变量函数取最小值的必要条件是所有偏导数都为0，但在神经网络代价函数中往往包含数百万个权重和偏置，是一个超高维非线性函数，直接联立求解偏导为0的方程组是不可能的。因此需要一种迭代式的近似求解方法，不用一步到位找到最小值，而是每次往让代价变小变快的方向走一小步，反复迭代直到收敛。

b）
1）梯度下降法的核心思路

2）近似公式与内积的关系

3）向量内积的关键性质

4）二变量函数梯度下降法基本式

5）梯度下降法的迭代流程

6）推广到n个变量的情况

7）哈密顿算子

8）学习率