AI 数学精要
本节要解决什么问题
后端工程师每天都在和数学打交道——处理金额时要做精度归一化、设计限流算法时要分析收敛性、配置超时重试时要理解指数退避。这些看似和 AI 无关的工作,背后其实是同一套数学思维。
AI 模型训练的本质也是优化:在参数空间中搜索一组参数,使得模型在训练数据上的预测误差最小。这个过程和你调优连接池大小、金汤配置缓存策略,本质上都是在"找一组让系统表现更好的配置"。
本节的目标是:让有工程背景的你,建立起对 AI 核心数学工具的直觉,理解它们在做什么,而不是会推公式。
这个工具/机制是怎么工作的
模块全景图
本模块涵盖 8 个核心概念,之间的关系如下:
感知机学习
│
├── 激活函数(非线性化的关键)
│ │
│ ├── Softmax(多分类输出层)
│ │
│ └── 交叉熵(损失函数)
│
├── 链式法则
│ │
│ └── 反向传播(训练的核心算法)
│ │
│ ├── 梯度消失 / 梯度爆炸
│ │
│ └── LayerNorm(数值稳定化)
│
└── 残差连接(解决深层网络梯度问题)
核心依赖关系
理解某些章节,需要先掌握前置知识:
| 本节 | 前置依赖 | 为什么 |
|---|---|---|
| 交叉熵 | Softmax | Softmax 输出概率,交叉熵衡量概率分布差异 |
| 反向传播 | 感知机、激活函数 | 感知机是基础,激活函数导数是传递因子 |
| 梯度消失/爆炸 | 反向传播 | 梯度消失/爆炸就是反向传播中梯度连乘的后果 |
| LayerNorm | 反向传播 | 理解归一化如何让梯度更稳定 |
形式化
本模块不要求推导公式,但以下几个核心形式化概念会在多篇文章中反复出现,建议熟悉:
损失函数:衡量模型预测与真实答案之间差距的函数,记作 L(θ),其中 θ 是模型参数。训练的目标是最小化这个值。
梯度:损失函数对每个参数的偏导数组成的向量 ∇_θ L,指向函数上升最快的方向。负梯度方向是下降最快的方向。
链式法则:计算复合函数导数的规则。如果 y = f(g(x)),则 dy/dx = f'(g(x)) · g'(x)。这是反向传播的数学核心。
本节小结
AI 训练的数学本质是:在参数空间中,用梯度信息引导参数更新,使损失函数逐步下降。本模块的 8 篇文章将逐一拆解这个过程中最关键的 8 个机制。
延伸阅读
学完本模块后,推荐继续阅读:
- Transformer 架构总览 — 所有这些数学机制最终如何组装成 Transformer
- Attention 机制 — Softmax 在 Attention 中的核心角色