拉巴力的纸皮箱

技术博客 | 记录学习笔记和思考


  • 首页

  • Notes

  • 标签

  • 归档

  • 关于

  • 搜索

为什么点积太大会导致 Softmax 梯度问题,以及这个问题是如何被解决的

发表于 2026-01-30

以下内容由AI辅助生成

一、问题背景:我们到底在担心什么?

在 Transformer 的注意力机制中,有一个非常经典的公式:

很多人在第一次看到这个公式时都会产生疑问:

  • 为什么注意力机制使用点积来计算相关性?
  • 为什么点积之后要接一个 softmax?
  • 最关键的是:为什么一定要除以 ?

如果只是把它当成论文中的经验公式,那么对注意力机制的理解仍然停留在表面。事实上,这个结构并不是为了“效果更好看”,而是为了解决一个在训练过程中非常具体、而且非常致命的问题。


二、softmax 的作用,以及它对输入尺度的敏感性

softmax 的定义如下:

它的作用是把一组实数打分映射为一个概率分布。但 softmax 有一个非常重要的性质:

softmax 对输入的整体尺度极其敏感

当输入数值较为温和时,softmax 会产生一个相对平滑的分布;而当输入整体变大时,softmax 的输出会迅速变得极端。

一个简单的数值例子

情况一:输入尺度适中

1
2
输入: z = [1, 0]
输出: softmax(z) ≈ [0.73, 0.27]

两个位置都有明显概率,模型仍然保留不确定性。


情况二:输入尺度变大

1
2
输入: z = [10, 0]
输出: softmax(z) ≈ [0.9999, 0.0001]

此时 softmax 的输出已经几乎等同于 one-hot 分布 [1, 0]。

这是因为指数函数会将线性差距放大为指数级差距,只要输入的整体尺度变大,softmax 的输出就会迅速向极端塌缩。


三、注意力分数为什么会天然变大:点积的统计性质

在注意力机制中,softmax 的输入来自查询向量和键向量的点积:

对于单个 query-key 对,这个分数可以写成:

在常见训练设置中(例如经过 LayerNorm 之后),可以合理假设:

  • 各维度的 相互独立
  • 均值为 0
  • 方差为 1

点积方差的数学推导

在上述假设下,对于每一项 :

  • 均值:
  • 方差:

当 项独立相加时:

因此标准差为:

关键结论:点积的典型数值规模与 成正比

这并非实现细节或偶然现象,而是高维点积在统计意义上的必然结果。

具体数值示例

维度 点积标准差 典型点积范围
64 8 [-16, 16]
128 11.3 [-23, 23]
512 22.6 [-45, 45]

当 时,点积值可能达到 ±45,这会让 softmax 严重饱和。


四、softmax 的梯度结构:什么是 Jacobian?

softmax 是一个向量到向量的函数:

  • 输入:
  • 输出:

当输入和输出都是向量时,需要描述这样一件事:

某一个输入分量发生微小变化,会如何影响所有输出分量

所有这些“偏导关系”组成的一整张表,称为 Jacobian 矩阵:

softmax 的 Jacobian 具体形式

对于 softmax,其 Jacobian 有明确的数学形式:

关键观察:

  • 当 (饱和状态)时,
  • 当 时,

梯度大小直接由输出概率本身控制


五、softmax 饱和:输出分布发生了什么变化

对比:适中尺度 vs 大尺度

输入尺度适中时(例如 ):

1
2
3
4
5
6
7
8
9
位置:    1      2      3      4
输入: 2 1 0 -1
概率: 0.52 0.28 0.14 0.06

可视化:
位置 1: ██████████████████ (52%)
位置 2: ████████████ (28%)
位置 3: ██████ (14%)
位置 4: ██ (6%)

在这种状态下,多个位置都具有非零概率,输出对输入变化是敏感的。


输入尺度变大时(例如 ):

1
2
3
4
5
6
7
8
9
位置:    1      2       3        4
输入: 20 10 0 -10
概率: 1.00 0.00 0.00 0.00

可视化:
位置 1: ████████████████████████████████ (≈100%)
位置 2: (≈0%)
位置 3: (≈0%)
位置 4: (≈0%)

此时,几乎所有概率质量都集中在单一位置,其余位置的概率被压缩到接近零。

这种从“平滑分布”到“极端分布”的转变,称为 softmax 饱和(saturation)。


六、梯度是如何在 softmax 处消失的

在反向传播中,梯度的传递遵循链式法则:

未饱和状态:梯度正常传播

1
2
3
4
5
6
7
8
9
10
11
12
反向传播路径:

Loss
│ ∂L/∂s (来自上游)
↓
softmax
│ ∂s/∂z ≈ [0.2, 0.3, 0.1, ...] (梯度有效)
↓
logits z
│ ∂z/∂Q, ∂z/∂K (梯度继续传播)
↓
Q, K (参数可以更新)

饱和状态:梯度被截断

1
2
3
4
5
6
7
8
9
10
11
12
反向传播路径:

Loss
│ ∂L/∂s (来自上游)
↓
softmax
│ ∂s/∂z ≈ [0.00001, 0, 0, ...] (梯度几乎为0!)
↓
logits z
│ ∂z/∂Q ≈ 0, ∂z/∂K ≈ 0 (梯度消失)
↓
Q, K (参数无法更新!)

梯度不是在网络深处逐层衰减的,而是在 softmax 这一层被直接截断的

这是一种发生位置非常明确的梯度消失问题。


七、从点积到梯度消失的完整因果链

将前面的所有环节串联起来,可以得到一条完整因果链:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
高维点积统计性质
↓
点积方差 ∝ d_k
↓
点积值的典型尺度 ∝ √d_k
↓
softmax 输入整体变大
↓
指数函数放大差距
↓
softmax 输出趋向 one-hot 分布
↓
softmax Jacobian 中梯度项趋近于 0
↓
∂s/∂z ≈ 0 导致梯度截断
↓
Q、K 无法更新,注意力权重过早固定

问题的本质是:点积让 softmax 过早进入了饱和区间,从而导致梯度消失。


八、为什么这不是梯度爆炸问题

这一现象有时会被误认为是梯度爆炸,但两者在机制上完全不同。

梯度爆炸 vs 梯度消失对比

特征 梯度爆炸 本文讨论的问题
梯度大小 趋向无穷大 趋向零
发生原因 导数累乘 > 1 softmax 饱和导致 ∂s/∂z ≈ 0
数值稳定性 数值溢出 数值下溢
训练表现 参数震荡、NaN 参数停止更新

关键区别:

softmax 的梯度由其输出概率控制,具体形式为 和 。由于概率值 ,这些导数在数值上是有上界的,不可能随着输入增大而放大梯度。

softmax 只会压缩梯度,而不会放大梯度。

因此,这里出现的问题不是梯度失控增大,而是梯度被系统性压缩并最终消失。


九、根本解决方案:Scaled Dot-Product Attention

既然问题的根源在于点积的方差与维度成正比(),那么最直接的解决方式就是对点积进行缩放:

缩放后的统计性质

缩放后,点积的方差变为:

效果:

  • 控制点积的典型尺度稳定在常数级别(与维度无关)
  • 防止 softmax 过早进入饱和区
  • 保持输出对输入变化的敏感性
  • 让梯度能够持续传回 Q 和 K

这一步的本质是方差归一化(variance normalization)。


十、为什么是

三种缩放方式的对比

缩放方式 点积方差 softmax 行为 问题
不做缩放 很快饱和 梯度消失
除以 过于均匀 区分能力不足,所有位置概率接近
除以 稳定且可学习 ✓ 最优

直观解释

  • 不做缩放:点积方差随 线性增长,softmax 很快饱和
  • **除以 **:矫枉过正,点积方差变成 ,当 很大时会让所有注意力权重过于平均,失去了“注意”的意义
  • **除以 **:恰好让方差归一化到 1,既不会饱和也不会过于平滑

这一选择与 Xavier 初始化、LayerNorm 等方法背后的统计思想是一致的:保持信号的方差在网络中稳定传播。


十一、总结

点积过大不会导致梯度爆炸,而是会使 softmax 过早进入饱和状态。一旦 softmax 的输出分布变得极端,其 Jacobian 中的梯度项会趋近于零,导致梯度在这一层被有效截断,学习信号无法继续传播到 Q 和 K。

的引入,正是为了把点积的方差从 归一化到 1,从而把 softmax 的输入尺度拉回到一个模型仍然能够持续学习的区间。

这是一个精心设计的数学解决方案,背后的统计原理清晰明确。

残差连接(Residual Connection):从直觉困境到现代神经网络的核心结构

发表于 2026-01-30
从深层网络退化问题出发,解释残差连接为何成为现代神经网络中的关键结构。
阅读全文 »

从 0 理解梯度消失与梯度爆炸

发表于 2026-01-30

以下内容由AI辅助生成

一、训练神经网络到底在做什么

训练神经网络,本质只有一件事:

不断微调参数,使模型输出更接近真实目标。

参数该往哪个方向调、调多大力度,完全由梯度决定。

如果梯度能够稳定传播,模型就能学习;
如果梯度在传播过程中衰减或失控,训练就会失败。


二、什么是梯度(不涉及神经网络)

1. 变化率的直觉理解

考虑函数:

当 发生微小变化时, 的变化量取决于当前位置。

  • 在 附近, 增加 0.01, 约增加 0.02
  • 在 附近,同样增加 0.01, 却增加约 0.2

这说明:
同样的输入变化,在不同位置,对输出的影响不同。


2. 导数的定义

这种“对变化的敏感程度”,就是导数。

数学上,导数的定义为:

对 :

注: 在单变量函数中称为导数,在多变量函数中,所有偏导数组成的向量称为梯度。


三、梯度在训练中的作用

1. 参数是如何被更新的

设一个最简单的模型:

定义损失函数:

训练的目标是让损失 变小。


2. 梯度下降规则

参数更新公式为:

其含义是:

  • 梯度大 → 参数调整幅度大
  • 梯度小 → 参数调整幅度小
  • 梯度为 0 → 参数不再更新

梯度决定了模型是否还能继续学习。


四、神经网络中的梯度从哪里来

1. 神经网络是复合函数

多层神经网络可以表示为函数嵌套:

损失函数是 。


2. 反向传播的本质

反向传播使用链式法则计算梯度:

也就是说:

梯度是多个导数的连乘结果。


五、梯度消失:为什么“传不到前面”

1. 连乘导致的数值衰减

假设每一层反向传播的导数约为 0.5:

  • 10 层:

  • 50 层:

梯度几乎为 0。


2. 对训练的影响

  • 输出层附近仍能更新
  • 输入层附近梯度趋近于 0
  • 参数几乎不发生变化

这称为梯度消失(Vanishing Gradient)。


六、梯度爆炸:同一机制的反面

1. 连乘导致的数值放大

若每一层导数约为 1.5:

  • 10 层:
  • 50 层:

2. 对训练的影响

  • 参数更新幅度极大
  • 损失函数变为 NaN 或 inf
  • 数值溢出,模型发散

这称为梯度爆炸(Exploding Gradient)。


七、激活函数为什么会深刻影响梯度

1. 激活函数的作用

如果每一层只有线性变换:

多层叠加后仍等价于一次线性变换,模型表达能力有限。

因此神经网络必须引入非线性激活函数。


2. 激活函数在反向传播中的角色

在反向传播过程中,每一层梯度都会乘上激活函数的导数:

梯度

激活函数的导数直接决定梯度是被缩小,还是能够稳定传播。


3. Sigmoid:典型的饱和型激活函数

函数形态:

1
2
3
4
5
6
y
1 | ________
| /
| /
0 |______/____________ x
-∞ 0 +∞

形态特征:

  • 输出值域在 (0, 1) 之间
  • 两端逐渐变平,存在明显饱和区
  • 当输入绝对值较大时(如 或 ),函数几乎不变化
  • 在饱和区内,导数接近 0
  • 最大导数出现在 处,值为 0.25

多层连乘后,即使在最佳位置,导数也只有 0.25,梯度迅速衰减,极易出现梯度消失。


4. ReLU:非饱和激活函数

函数形态:

1
2
3
4
5
6
y
|
| /
| /
0 |______/____________ x
-∞ 0 +∞

形态特征:

  • 负区间输出恒为 0( 时 )
  • 正区间保持线性增长( 时 )
  • 正区间内导数恒为 1
  • 负区间内导数恒为 0

优点: 梯度在正区间不会被缩小,更适合深层网络。

缺点: 负区间梯度为 0,可能导致“神经元死亡”问题(Dead ReLU),即某些神经元永远不会被激活。


5. GELU:平滑的非饱和激活函数

函数形态:

1
2
3
4
5
6
y
| /
| /
| __/
0 |____/______________ x
-∞ 0 +∞

形态特征:

  • 整体趋势类似 ReLU
  • 负区间平滑过渡,而非硬截断(允许小的负值通过)
  • 在 附近是光滑可导的
  • 同时保持梯度稳定与函数连续性
  • 避免了 ReLU 的“神经元死亡”问题

因此在 Transformer 等现代深层模型中被广泛采用。


6. 激活函数对梯度的整体影响

  • Sigmoid / Tanh: 饱和型激活函数,导数最大值为 0.25(Sigmoid)或 1(Tanh),在饱和区导数接近 0,易导致梯度消失
  • ReLU: 非饱和激活函数,正区间导数恒为 1,但负区间导数为 0,可能导致神经元死亡
  • GELU / Swish: 平滑的非饱和激活函数,结合了 ReLU 的优点并避免了硬截断,在深层网络中表现更好

八、梯度消失与爆炸的本质

梯度问题并非偶然,而是反向传播机制的必然结果:

  • 小于 1 的数反复相乘 → 梯度消失
  • 大于 1 的数反复相乘 → 梯度爆炸

问题与网络深度、激活函数和结构设计强相关。


九、常见解决思路

针对梯度消失:

  • 使用非饱和激活函数(如 ReLU、GELU)代替 Sigmoid、Tanh
  • 引入残差连接(ResNet),为梯度提供直接的反向传播路径
  • 使用批归一化(Batch Normalization)或层归一化(Layer Normalization)稳定数值尺度
  • 适当的权重初始化(如 Xavier、He 初始化)使初始梯度保持在合理范围

针对梯度爆炸:

  • 梯度裁剪(Gradient Clipping),限制梯度的最大范数
  • 降低学习率
  • 使用权重正则化(如 L2 正则化)
  • 批归一化同样有助于防止梯度爆炸

十、总结

梯度消失是信号衰减问题,
梯度爆炸是信号放大失控问题。

深度学习模型结构的演进,本质上是在解决同一个问题:
如何让梯度稳定、完整地传回去。

链式法则与反向传播:从直觉到结构理解

发表于 2026-01-30
从导数直觉出发,系统解释链式法则、偏导数与反向传播在计算图中的作用。
阅读全文 »

感知机与神经网络如何学习并逼近复杂函数

发表于 2026-01-30

以下内容由AI辅助生成

——从函数形式到分段线性逼近的机制说明


一、感知机与神经网络的基本函数形式

在深度学习中,感知机及其扩展的神经网络,并不是在使用人为指定的多项式函数形式,例如:

其基本计算结构为:

其中:

  • :输入特征
  • :可学习参数
  • :激活函数(形式固定,由模型结构决定)

神经网络的非线性能力并非来自显式写入平方、立方项,而是来自激活函数与多层组合。


二、模型结构与参数学习的区分

神经网络需要在两个层面上理解:

  • 结构层面:
    层数、连接方式、激活函数类型(人为设计)

  • 参数层面:
    权重 、偏置 (通过数据训练得到)

网络不会“选择一个解析公式”,而是在固定结构下,通过参数不断调整,形成某种函数形状。


三、单层感知机的表达能力边界

当模型只有一层(无隐藏层)时:

虽然激活函数引入了非线性,但其表达能力仍然受限:

  • 决策边界是线性的(对于分类任务)
  • 无法表示真正复杂的非线性决策区域

例如 XOR、圆形边界等问题,无法由单层感知机解决。
复杂函数的表达能力来自隐藏层。


四、复杂函数是如何被“学出来”的

神经网络学习复杂函数的过程,本质是连续的数值优化:

  1. 参数随机初始化,函数形状与目标无关
  2. 前向传播,计算当前模型对应的输出函数
  3. 计算损失函数,仅反映预测误差
  4. 反向传播,计算参数对损失的梯度
  5. 梯度下降,微小更新参数
  6. 多次迭代,函数形状逐步调整

模型并不“理解函数形式”,只是不断在函数空间中朝误差更小的方向移动。


五、非线性激活的作用(以 ReLU 为说明示例)

为便于几何化理解,引入 ReLU 激活函数作为示例:

对一维输入:

其几何特征为:

  • 当 ,输出为 0
  • 当 ,输出为一条直线

一个 ReLU 神经元在一维输入下,只做一件事:
在某个位置之后,开始贡献一段线性函数。


六、折点的定义与来源

ReLU 的“折点”定义为:

需要明确:

  • 网络中不存在名为 的独立参数
  • 折点是权重 与偏置 的比值结果
  • 训练过程中仅对 做梯度下降
  • 折点位置是参数学习的自然副产物

七、多 ReLU 网络的函数性质

对一维输入、单隐藏层 ReLU 网络:

该函数族具有严格性质:

  • 在任意区间内是线性的
  • 在折点处一阶导数发生跳变
  • 整体函数为分段线性函数

复杂性来自多个折点及其线性部分的叠加。


八、三 ReLU 拼接示例(严格区分“折点”与“输出折线”)

考虑如下网络:

1. 折点(竖直分界线)

该网络包含三个 ReLU,因此理论上只有三个折点:

它们对应三条竖直分界线,用于划分输入区间,本身不是函数图像的一部分:

1
2
│        │        │
t₁ t₂ t₃

2. 区间划分

折点将输入轴划分为四个区间:


3. 各区间内的函数来源(这是关键)

区间 A:

  • ReLU(x+1) = 0
  • ReLU(x) = 0
  • ReLU(x−1) = 0

输出为:

这是一个常数函数,因此图像是一条横线。

这条横线并不对应任何单个 ReLU
而是“三个 ReLU 全部未激活”的叠加结果


区间 B:

  • ReLU(x+1) = x+1
  • 其余两个 ReLU = 0

输出为:

这一段直线由 ReLU₁ 单独贡献


区间 C:

  • ReLU(x+1) = x+1
  • ReLU(x) = x

输出为:

这一段直线是 ReLU₁ 与 ReLU₂ 的线性叠加


区间 D:

  • 三个 ReLU 全部激活

输出为:

这一段直线是 三个 ReLU 的线性部分之和


4. 输出函数的折线示意(结果)

1
2
3
4
5
6
7
8
9
10
y
│ /
│ __/ ← ReLU₁ + ReLU₂ + ReLU₃
│ __/
│ __/ ← ReLU₁ + ReLU₂
│ __/
│__/ ← ReLU₁
│────────────── ← 所有 ReLU = 0(常数段)
└──────────────── x
-1 0 1

需要严格理解:

  • 竖线(t):表示 ReLU 的激活边界
  • 折线:表示当前所有“已激活 ReLU”的线性部分之和
  • 折线不是某个 ReLU 单独“画出来的”

九、为什么这种结构可以逼近抛物线

抛物线 的本质特征是:

  • 斜率随 连续增大

ReLU 网络无法产生连续曲率,但可以通过:

  • 足够多折点
  • 足够密的斜率跳变

在有限区间内逼近这种行为。


十、有限 ReLU 的表达极限

在一维情况下:

  • 有限 ReLU 网络 ⇒ 分段线性函数
  • ⇒ 处处光滑、二阶导数非零

因此:

  • ❌ 有限 ReLU 无法在整个实数轴上精确等于
  • ✅ 在任意有限区间内,可以逼近到任意精度

十一、需要多少个 ReLU(量级结论)

在区间 上,用单隐藏层 ReLU 网络逼近:

若最大误差为 ,所需 ReLU 数量满足:

含义为:

  • 区间越大 → 折点越多
  • 精度要求越高 → 折点越多

十二、整体总结

  • 神经网络不显式构造高次多项式
  • 表达能力来自线性变换与非线性激活的组合
  • ReLU 在一维下本质生成分段线性函数
  • 折点是参数学习的自然结果,而非人为设定
  • 折线是多个 ReLU 线性部分的叠加结果
  • 光滑函数只能被有限 ReLU 逼近,不能被精确等同

交叉熵损失与最大似然估计:完全理解指南

发表于 2026-01-29

以下内容由AI辅助生成

一、从最基本的问题开始

1.1 模型如何表达预测?

假设你在训练一个图像分类模型:

任务:判断这张图是「猫」还是「狗」?

模型不会直接给出“猫”或“狗”这样的硬答案,而是输出概率分布:

  • “我认为是猫的概率是 0.8,是狗的概率是 0.2”

👉 核心理解:模型输出的是“置信度(概率)”,而不是确定的答案。

1.2 如何评价模型预测的好坏?

假设真实答案是「猫」,我们看不同预测的质量:

模型给猫的概率 p 评价 期望的损失
0.99 非常准确 应该很小
0.8 比较好 适中
0.51 勉强对 较大
0.1 完全错误 应该很大

我们需要设计一个损失函数,满足:

  • 正确答案的概率越大 → 损失越小
  • 正确答案的概率越小 → 损失越大

1.3 为什么选择对数函数?

观察函数 loss = -log(p) 的行为:

正确类概率 p -log(p) 含义
0.99 0.01 几乎完美
0.9 0.10 很好
0.5 0.69 随机猜测水平
0.1 2.30 很差
0.01 4.60 完全错误

关键特性:

  1. p 接近 1 → 损失接近 0(奖励正确预测)
  2. p 接近 0 → 损失趋向无穷(严厉惩罚错误)
  3. 非线性增长:从 p=0.9 到 p=0.1,损失增加了 20 倍以上

为什么对数函数如此合适?这来自最大似然估计的数学原理(第四章详解)。

1.4 交叉熵的最简形式

对于单次预测:

  • 真实答案是类别 A
  • 模型给 A 的概率是 p

损失函数:

这就是交叉熵的核心。


二、为什么叫“交叉熵”?

2.1 先理解“熵”

熵(Entropy)是信息论中的核心概念,衡量不确定性。

两个例子

例子 1:完全确定

  • 明天 100% 会下雨
  • 熵 = 0(无不确定性)

例子 2:完全随机

  • 抛硬币,正反各 50%
  • 熵最大(最大不确定性)

数学定义

对于概率分布 P:

含义:平均每次需要多少信息量(比特)来描述发生的事情。

2.2 什么是“交叉”?

现实中经常出现这种情况:

  • 真实世界:按分布 P 在运行
  • 你的认知:却认为它是分布 Q

当你用错误的分布 Q 去理解真实分布 P 时,会产生额外的“信息代价”。

交叉熵的定义

2.3 为什么叫“交叉”?

看公式的结构:

公式部分 来源 含义
P(x) 真实分布 P 事件实际发生的频率(权重)
log Q(x) 模型分布 Q 用模型的方式编码

“交叉”的含义:两个不同分布的交叉使用

  • 权重来自 P
  • 编码来自 Q

对比:

  • **熵 H(P)**:用自己编码自己
  • **交叉熵 H(P,Q)**:用别人编码自己

2.4 在机器学习中的应用

真实标签(one-hot):P = [0, 0, 1, 0] — 第3类是正确答案

模型输出(Softmax):Q = [0.1, 0.2, 0.6, 0.1]

计算交叉熵:

2.5 为什么简化成了 -log(p)?

在分类任务中,真实标签是 one-hot:只有正确类是1,其他是0

代入交叉熵公式,求和后只剩下正确类别那一项:

正确类

这就是为什么实际代码中:

1
loss = -log(Q[y_true])

三、二分类和多分类的具体形式

3.1 二分类交叉熵(Binary Cross Entropy)

设定:

  • 模型输出:p = P(y=1|x),通过 Sigmoid 得到
  • 真实标签:y ∈ {0, 1}

损失函数:

理解:这是分段函数的简洁写法

真实标签 y 实际计算
y = 1 -log(p)
y = 0 -log(1-p)

具体例子:

1
2
3
4
5
真实标签 y = 1, 模型预测 p = 0.9
损失 = -log(0.9) ≈ 0.105

真实标签 y = 1, 模型预测 p = 0.1
损失 = -log(0.1) ≈ 2.303

3.2 多分类交叉熵(Categorical Cross Entropy)

完整流程:

步骤1:模型输出 logits

1
z = [2.0, 1.0, 0.1]

步骤2:Softmax 归一化

计算结果:p₁ ≈ 0.659, p₂ ≈ 0.242, p₃ ≈ 0.099

步骤3:计算交叉熵

真实标签 y = [0, 1, 0](第2类是正确答案)

简化形式(利用 one-hot):


四、从最大似然估计理解交叉熵

4.1 一个侦探问题

你发现了一枚硬币和抛掷记录:

1
结果:正、正、反、正、正

任务:判断硬币正面的概率是多少?

思考过程:

假设的概率 θ 出现这串结果的概率
θ = 0.5 0.5⁴ × 0.5¹ = 0.03125
θ = 0.8 0.8⁴ × 0.2¹ ≈ 0.0819
θ = 0.9 0.9⁴ × 0.1¹ ≈ 0.0656

结论:θ = 0.8 最能解释观测数据!

这就是最大似然估计(MLE)的核心思想。

4.2 概率 vs 似然:关键区别

概率(Probability)

  • 已知:参数 θ
  • 求:数据出现的概率
  • 方向:从原因推结果
1
P(data|θ) = “给定硬币特性,某个结果出现的概率”

似然(Likelihood)

  • 已知:数据(已经发生了)
  • 求:哪个参数最可能
  • 方向:从结果推原因
1
L(θ|data) = “给定观测结果,哪个参数最合理”

数学关系:L(θ|data) = P(data|θ)

数值相同,但含义完全相反。

4.3 硬币问题的形式化

Step 1: 建立概率模型

1
2
P(x=1|θ) = θ      # 正面
P(x=0|θ) = 1-θ # 反面

Step 2: 计算联合概率

观测:正、正、反、正、正

假设独立:

Step 3: 似然函数

问题:θ 取什么值时,L(θ) 最大?

4.4 为什么要取对数?

这是连接 MLE 和交叉熵的关键步骤。

原因1:连乘变连加

对于 N 个样本:L(θ) = ∏ P(xᵢ|θ)

当 N 很大时:

  • 数值下溢:太多小于1的数相乘,结果趋近0
  • 计算困难:浮点数精度问题

取对数后:

连乘变连加,数值稳定!

原因2:不改变最优解

log 是严格单调递增函数:

原因3:求导更简单

  • 原函数:L(θ) = θ⁴(1-θ)
  • 对数函数:ℓ(θ) = 4log θ + log(1-θ)

求导:dℓ/dθ = 4/θ - 1/(1-θ) = 0

解得:θ = 0.8

4.5 MLE 的通用形式

给定:

  • 数据:x₁, x₂, …, xₙ
  • 参数:θ
  • 模型:P(x|θ)

三步曲:

  1. 似然函数:L(θ) = ∏ᵢ P(xᵢ|θ)
  2. 对数似然:ℓ(θ) = ∑ᵢ log P(xᵢ|θ)
  3. 最大化:θ̂ = argmax ∑ᵢ log P(xᵢ|θ)

核心思想:

找一个参数 θ,使得“已发生的数据”在该模型下出现的概率最大。

4.6 从 MLE 到机器学习

监督学习中:

  • 数据:(x₁,y₁), (x₂,y₂), …, (xₙ,yₙ)
  • 模型:P_θ(y|x)

MLE 目标:

从最大化到最小化:

深度学习框架做最小化(梯度下降):

右边就是负对数似然(NLL)

每个样本的损失:

这正是交叉熵损失!


五、MLE = NLL = 交叉熵

5.1 完整的等价链

1
2
3
4
5
6
7
最大似然估计(MLE)
↓ 取对数
对数似然(Log-Likelihood)
↓ 变号(max → min)
负对数似然(NLL)
↓ 用分布语言重写
交叉熵(Cross Entropy)

5.2 逐步推导

Step 1: MLE 原始形式

Step 2: 取对数

这是对数似然(Log-Likelihood)

Step 3: 变号

这是负对数似然(NLL)

Step 4: 用分布语言重写

真实分布 P(one-hot):P(y|x) = 1 当 y=y_true,否则 = 0

模型分布:Q_θ(y|x) = P_θ(y|x)

交叉熵定义:

代入 one-hot:

与 NLL 完全一致!

5.3 核心等价关系

交叉熵负对数似然()

因此:

交叉熵对数似然最大似然估计

5.4 为什么有不同的名字?

视角 术语 来源 强调什么
统计学 最大似然/对数似然 统计学 参数估计
信息论 交叉熵 信息论 分布差异
工程 NLL/CrossEntropyLoss 深度学习 损失函数

本质相同,只是不同学科的不同表述。

5.5 数值例子:三者的一致性

3分类问题,3个样本:

数据:

  • 样本1: y₁=0, 预测 P_θ(0|x₁) = 0.7
  • 样本2: y₂=1, 预测 P_θ(1|x₂) = 0.8
  • 样本3: y₃=2, 预测 P_θ(2|x₃) = 0.5

方法1:MLE(最大化似然)

1
2
L(θ) = 0.7 × 0.8 × 0.5 = 0.28
log L(θ) = log(0.7) + log(0.8) + log(0.5) = -1.273

方法2:NLL(最小化负对数似然)

1
NLL = -log L(θ) = 1.273

方法3:交叉熵

1
2
3
4
L₁ = -log(0.7) ≈ 0.357
L₂ = -log(0.8) ≈ 0.223
L₃ = -log(0.5) ≈ 0.693
总和 = 1.273

三种方法,完全相同的结果!


六、为什么这样设计?

6.1 理论基础:来自统计学

分类模型在建模条件概率 P(y|x)

统计学告诉我们:

  • 最自然的参数估计方法是 MLE
  • MLE 具有一致性、渐近正态性等优良性质
  • MLE 等价于最小化交叉熵

结论:

交叉熵不是人为设计的,而是从统计学基本原理推导出来的

6.2 工程优势:梯度简洁

Softmax + Cross Entropy 的梯度:

特点:

  1. 形式极简:就是预测值和真实值的差
  2. 没有复杂的链式法则
  3. 数值稳定:不会梯度消失或爆炸
  4. 计算高效

这就是为什么深度学习框架直接提供 CrossEntropyLoss。

6.3 信息论视角:最小化分布差异

交叉熵可以分解为:

其中:

  • H(P):真实分布的熵(常数)
  • KL(P‖Q):KL散度(分布差异)

因此:最小化交叉熵 ⟺ 最小化 KL 散度 ⟺ 让模型分布逼近真实分布


七、总结

7.1 核心理解

交叉熵损失 = -log(正确答案的概率)

  • = 负对数似然
  • = 最大似然估计的优化目标

7.2 从三个角度理解

直觉:

“你给正确答案分配的概率有多低,我就罚你多狠”

统计学:

“让已发生的数据在当前模型下概率最大”

信息论:

“用模型的分布去理解真实分布所付出的代价”

7.3 关键等价关系

最大似然负对数似然交叉熵

7.4 理解路径

1
2
3
4
5
6
7
8
9
10
11
1. 问题:如何评价模型预测?
↓
2. 直觉:正确答案概率越高越好
↓
3. 函数:-log(p) 提供合适的惩罚
↓
4. 统计学:这是最大似然估计
↓
5. 信息论:这也是交叉熵
↓
6. 等价:MLE = Log-Likelihood = NLL = Cross Entropy

7.5 最小记忆单元

如果只记一件事:

交叉熵 = -log(正确类的概率)

它来自最大似然估计:让模型给真实答案的概率最大


八、结语

交叉熵损失看似简单的 **-log(p)**,实际上:

  • 来自统计学:最大似然估计的自然结果
  • 来自信息论:分布差异的度量
  • 工程优良:梯度简洁、数值稳定

理解交叉熵和最大似然的联系,你就真正理解了:

  • 为什么这样设计损失函数
  • 为什么深度学习能够工作
  • 如何从原理出发思考问题

Softmax:从直觉到本质

发表于 2026-01-28

以下内容由AI辅助生成

Softmax 是多分类任务中最常见的输出层函数。它的任务表面上是“把 logits 变成概率”,但本质是:将一组可加的分数转换为可比较、可优化的相对强度,并与极大似然/交叉熵无缝对接,同时保证数值稳定和梯度友好。


1. 问题设定:从 logits 到概率

1.1 什么是 logits?

神经网络最后一层通常输出一组实数:

这组 称为 logits(未归一化分数)。

1.2 我们需要什么?

我们需要一个函数,将任意实数向量映射到“概率单纯形”:

其中概率单纯形定义为:

1.3 硬约束(缺一不可)

  • 非负性:输出必须 > 0

  • 归一化:总和为 1

  • 全域定义:对所有实数输入都有定义

  • 保序性:

    例子:如果 logits 是 ,那么 Softmax 后 的顺序不变

  • 可微性:平滑可导,梯度稳定(用于反向传播)


2. Softmax 的定义

2.1 标准形式

其中:

  • :类别数
  • :第 类的 logit
  • 分母:对所有类别的指数求和,用于归一化

2.2 向量形式

2.3 数值稳定版(工程实践)

为什么要减 ?

当 很大时(如 1000), 会导致数值溢出(Overflow,变成 Inf)。减去 后:

  • 最大的 logit 变为 0:
  • 其他 logit 都是负数:负数 最多下溢到 0,不会 NaN
  • 数学上结果完全相同(分子分母同时除以 )

例子:

  • 原始: → 溢出!
  • 稳定版: → ✓

3. 为什么输出在 (0,1) 且和为 1?

这是纯代数结论,无需“概率直觉”。

令

3.1 为什么 ?

  • 对任意实数 ,都有
  • 分母是正数之和,必然 > 0
  • 因此

3.2 为什么 ?

分母包含分子本身:

(除非 ,否则严格 < 1)

3.3 为什么 ?

3.4 本质

Softmax = 对一组正数做 L1 归一化

指数的作用是将“任意实数”转为“严格正权重”。


4. 为什么必须用指数?

4.1 方案一:直接归一化 ❌

问题:

  • 可能为负 → “概率”为负
  • 分母可能为 0
  • 符号变化时语义被破坏

结论:不满足基本约束

4.2 方案二:ReLU 后归一化 ❌

问题:

  • 0 处不可导,训练困难
  • 大量类可能变为 0,梯度长期为 0(神经元“死亡”)
  • 相对差异被扭曲

4.3 方案三:平方归一化 ❌

问题:

  • 与 得到相同权重
  • logits 的“偏好方向”丢失
  • 分类语义崩塌

5. 指数为什么“刚刚好”?

指数函数 同时满足所有需求:

  1. 严格正性:(无零点、无负值、无断点)

  2. 严格单调:保持顺序

  3. 差异放大:线性差转为倍率差

    例子:

    • 如果 ,则 倍
    • 如果 ,则 倍
    • logit 差距越大,概率比越悬殊
  4. 加法→乘法同态:

第 4 点是关键的“桥梁”性质,后文将深入阐述。


6. e 是什么?

6.1 连续复利的极限

背景:假设你存 1 元钱,年利率 100%。

  • 一年计息 1 次: 元
  • 半年计息 1 次: 元
  • 每天计息: 元
  • 每秒计息: 元

当计息频率趋于无限(连续复利),极限就是 :

6.2 级数定义(实际计算常用)

算到 已经非常接近 2.71828。

6.3 最关键性质:自导数

这是 Softmax + 交叉熵梯度简洁的根本原因。


7. 为什么用 e 而非其他底数?

7.1 其他底数可行吗?

假设用底数 :

导数为:

7.2 梯度尺度污染

配合交叉熵时,梯度变为:

而使用 时:

7.3 为什么这很重要?

  • 学习率本应直接控制步长
  • 换底数会引入无意义的常数
  • 多层网络中尺度难以控制
  • 表达能力没有提升,纯属干扰

结论:用 等价于“剥离多余的常数尺度”,使系统最简洁。


8. Softmax + 交叉熵的“奇迹”

8.1 什么是交叉熵?

在分类任务中,我们用 one-hot 编码 表示真实标签:

  • 如果样本属于第 2 类(共 3 类):
  • 只有正确类别为 1,其他为 0

交叉熵损失衡量预测分布 与真实分布 的差异:

因为 是 one-hot,只有真实类别 处为 1,所以简化为:

意义:

  • 如果 (预测完全正确)→
  • 如果 (预测很不确定)→
  • 如果 (预测错误)→

目标:最小化交叉熵 = 最大化正确类别的预测概率。

8.2 交叉熵损失的完整形式

使用 one-hot 标签 ,交叉熵(也叫负对数似然):

8.3 代入 Softmax

8.4 梯度极简

这个“干净到难以置信”的形式,根源于:

若用其他正函数 替代指数,梯度会出现复杂的 项,优化困难且不稳定。


9. “加法 → 乘法”:唯一的自然桥梁

这不是比喻,而是结构必然性。

9.1 Logits 的加法世界

最后一层的典型形式:

语义是“证据累加”:

  • 支持特征 → 增加
  • 反对证据 → 减少
  • 多条证据 → 分数相加

例子(图像分类):

  • 检测到“毛发” → 猫的分数 +2
  • 检测到“尖耳朵” → 猫的分数 +1.5
  • 检测到“圆脸” → 猫的分数 +1
  • 最终:猫

比较两类时,自然量是差值:

表示“ 相对 的净优势”,典型的加法结构。

9.2 概率的乘法世界

分类中真正关心的是“相对可能性”,即比值:

例子:

  • 如果 猫狗
  • 比值:猫狗,表示“猫的可能性是狗的 3.5 倍”
  • 这是倍率/赔率,本质是乘法结构(比例、连乘)

9.3 核心需求:差值控制比值

希望存在单调函数 ,使得:

左边:概率的比例结构(乘法世界)
右边:logit 的差分结构(加法世界)

我们需要一座桥,将“差”转为“比”。

9.4 一致性约束逼出指数

希望满足传递性:

  • 若 比 强 , 比 强
  • 则 比 应强

即:

对应概率比值的链式相乘:

结合两式,得函数方程:

在“正、连续、单调”等合理条件下,唯一解是指数族:

因此:

归一化后:

( 为温度参数,通常 )

结论:“加法→乘法”不是比喻,而是结构要求的必然结果。

9.5 对训练的友好性

训练使用对数似然,对数将乘法拉回加法:

  • 指数:加法 → 乘法
  • 对数:乘法 → 加法

整个系统形成闭环:logits 的差是线性的,log 概率比也是线性的,梯度才简洁稳定。


10. 信息论视角:最大熵推导

10.1 问题设定

在约束条件下:

最大化熵:

10.2 拉格朗日方法

用拉格朗日乘子法求解,得到:

归一化后即为 Softmax。

10.3 深层意义

Softmax 不是约定俗成,而是在“仅知期望分数”约束下,熵最大的唯一形式。

这从信息论角度证明了 Softmax 的必然性。


11. 总结:Softmax 的必然性

Softmax 不是随便设计的,而是唯一同时满足以下要求的函数:

基础要求:

  • 任意实数输入 → 正数输出 → 和为 1
  • 大的 logit → 大的概率(保序)
  • 处处可导,梯度稳定

核心机制:

  • 用指数把“证据累加”(加法)转成“可能性倍率”(乘法)
  • logit 差 2 → 概率比 倍;差 5 → 比 倍

训练完美:

  • 配合交叉熵,梯度就是 (干净到极致)
  • 用 而非其他底数,避免梯度尺度污染

数值稳定:

  • 减 防溢出,下溢到 0 也符合语义

理论支撑:

  • 最大熵原理下的唯一解
  • 指数族分布的自然形式

一句话:Softmax 是“把加法世界的分数转成乘法世界的概率”的唯一自然方式。

激活函数的本质原理与作用

发表于 2026-01-27

以下内容由AI辅助生成

——从 XOR 出发理解非线性、表达能力与训练


一、从一个最小反例开始:XOR 与线性模型的根本局限

在讨论激活函数之前,有必要从一个最简单、却最具代表性的例子入手。
XOR(异或)问题以极低的维度,清晰地揭示了线性模型与深度神经网络在本质上的差异。

1. XOR 问题的定义

XOR 的规则如下:

x₁ x₂ XOR
0 0 0
0 1 1
1 0 1
1 1 0

在二维平面中表示为:

1
2
3
4
5
6
7
8
9
10
x₂ ↑
|
1 | ○ ●
|
|
0 | ● ○
+----------------→ x₁
0 1
● 表示输出为 1
○ 表示输出为 0

正类与负类分布在对角位置。

2. 线性模型为何无法解决 XOR

任何不包含非线性激活的神经网络,无论堆叠多少层,其整体形式都可以合并为一次线性变换:

在二维空间中,这意味着其决策边界只能是一条直线:

1
2
3
4
5
6
7
x₂ ↑
|
1 | ○ | ●
| |
| |
0 | ● | ○
+----------------→ x₁

无论如何调整这条直线,都无法将 XOR 的正负样本完全分开。

这是一个严格的数学事实:
线性函数在复合运算下是封闭的,多层线性网络在表达能力上等价于单层线性模型。


二、引入 ReLU 后发生了什么:XOR 被分开的全过程

XOR 的关键意义在于:
只要引入非线性,问题的几何结构就会发生根本变化。

1. 一个最小的两层 ReLU 网络

1
2
3
4
5
6
7
8
输入: x₁, x₂

隐藏层:
h₁ = ReLU(x₁ - x₂)
h₂ = ReLU(x₂ - x₁)

输出层:
y = h₁ + h₂

其中:

2. 逐点计算

  • (0,0): h₁ = 0, h₂ = 0 → y = 0
  • (1,1): h₁ = 0, h₂ = 0 → y = 0
  • (1,0): h₁ = 1, h₂ = 0 → y = 1
  • (0,1): h₁ = 0, h₂ = 1 → y = 1

XOR 被完全正确地区分。

3. 几何解释:空间是如何被切分并重组的

  • (x₁ - x₂ = 0)、(x₂ - x₁ = 0) 是两条对角线
  • ReLU 在每条直线处将空间一分为二
  • 一侧被整体压缩为 0,另一侧保持线性结构

叠加后,空间被划分为四个区域:

1
2
3
4
5
6
7
x₂ ↑
|
1 | ○ | ●
|-------+-------
| ● | ○
0 |
+----------------→ x₁

最终形成的是 X 形的分段线性决策边界,而不是一条直线。


三、从 XOR 抽象出的第一性原理:激活函数究竟在做什么

1. 激活函数并不是“画曲线”

一个常见但不准确的说法是:
激活函数把线性模型变成了曲线模型。

事实上,以 ReLU 为代表的现代激活函数并不会直接生成光滑曲线。

它们真正做的是:

  • 用线性超平面切分空间
  • 对部分区域进行门控(压缩、屏蔽)
  • 将多个线性区域以条件方式组合

因此,ReLU 网络本质上是分段线性模型。
非线性并不来自单次变换,而来自多次空间切分与重组的叠加效果。

2. 非线性存在的根本原因

非线性激活的首要作用不是增强模型能力,而是:

打破线性函数在复合运算下的封闭性,防止深度网络在数学上退化为线性模型。

这是激活函数存在的第一性原因。


四、表达能力与表达准确性:两个必须区分的层面

在理解激活函数的作用时,一个至关重要、却常被忽略的问题是:
表达能力与表达准确性并不是同一个概念。

  • 表达能力:模型是否具备表示复杂函数的可能性
  • 表达准确性:模型是否通过训练学到了合适的函数

激活函数解决的是前者的问题。
它并不直接提高预测准确率,而是为后续训练提供必要的表达前提。


五、不同激活函数的本质角色、形态与使用场景

虽然所有激活函数都引入了非线性,但它们的设计目标和承担的角色并不相同。


1. ReLU:结构型非线性(隐藏层主力)

函数形态:

1
2
3
4
5
6
y
│ /
│ /
│ /
│_____/________ x
0

ReLU 的核心特性是:

  • 分段线性:将复杂函数拆解为可组合的局部线性结构
  • 局部结构偏好:适合刻画分块、层级关系
  • 稀疏激活:部分神经元在给定输入下完全关闭
  • 梯度稳定:正区间不饱和,使深层网络可训练

因此,ReLU 及其变体成为现代深度网络隐藏层的默认选择。


2. sigmoid:概率型非线性(输出语义)

函数形态:

1
2
3
4
5
6
y
1 | ______
| /
| /
0 |_____/________ x
0

sigmoid 的核心作用在于:

  • 将实数映射到 (0,1)
  • 自然对应概率含义

其局限在于两端饱和、梯度易消失,因此:

  • 不适合深层隐藏层
  • 主要用于 二分类输出层 或 门控结构(如 LSTM 的门)

3. tanh:对称信号非线性(历史与特定场景)

函数形态:

1
2
3
4
5
6
7
y
1 | ______
| /
0 |____/______
| \
-1 | \_____
x

tanh 可以视为 sigmoid 的零中心版本:

  • 输出对称,值域为 (-1, 1)
  • 梯度分布更均衡

但它仍然存在饱和问题。
在现代深度网络中,tanh 多出现在:

  • 早期 RNN
  • 少数需要对称连续状态建模的场景

4. softmax:归一化与竞争机制(非表达型非线性)

以三分类为例,输入向量到概率分布的映射:

1
2
3
4
5
6
7
8
9
10
11
12
输入 z = [z₁, z₂, z₃]  →  输出 p = [p₁, p₂, p₃]

例如:
z = [2.0, 1.0, 0.1]
↓ softmax
p = [0.659, 0.242, 0.099] (和为 1)

特性:
• 最大值被强化: z₁最大 → p₁最大
• 保持顺序: z₁ > z₂ > z₃ → p₁ > p₂ > p₃
• 归一化: Σpᵢ = 1
• 竞争性: 增大z₁会压低p₂、p₃

softmax 作用在向量上,其本质是:

  • 将一组分数映射为概率分布
  • 强制类别之间产生竞争关系

典型使用场景包括:

  • 多分类输出层
  • 注意力权重归一化

softmax 并不用于构建复杂表示,而属于输出语义与选择机制。


六、激活函数的本质总结与选择逻辑

综合前文讨论,可以将激活函数的作用概括为:

在不破坏梯度传播的前提下,引入必要的非线性,
防止深度网络退化为线性模型,
为模型提供足够但可控的函数表达空间。

在此基础上:

  • 通过数据、损失函数与优化算法
  • 训练参数以逼近目标函数
  • 从而提高最终预测准确性与泛化能力

进一步概括为:

激活函数必须是非线性的,
不是为了无限增强表达能力,
而是为了防止深度网络退化为线性模型,
并在可训练的前提下,引入与任务结构匹配的非线性归纳偏置。

至于选哪种激活函数、使用多少层,本质上是:

  • 对数据分布的假设
  • 对优化可行性的权衡
  • 在大量经验与失败中逐步形成的工程共识

七、结语

通过 XOR 这一最小反例,可以清晰地看到:

  • 非线性是深度神经网络成立的必要条件
  • 激活函数并不是装饰,而是结构性组件
  • 不同激活函数承担着不同角色,而非优劣竞争

激活函数的意义,不在于“让模型更强”,
而在于让深度模型在数学上成立、在优化上可行、在表达上有效。


延伸思考方向:

  • ReLU 网络线性区域数量随层数增长的直观解释
  • 激活函数如何塑造优化景观(loss landscape)
  • 现代激活函数变体(Leaky ReLU、GELU、Swish 等)的设计动机
  • 激活函数与归纳偏置的关系

AI 数学精要速览

发表于 2026-01-20

一、人工智能的本质:数学建模 + 优化,而非算力魔法

人工智能并非神秘技术,其本质是:

  • 数学:描述问题、刻画规律、定义目标
  • 算法:在数学模型上进行搜索与优化
  • 计算机:负责实现与加速计算

可以用一句话概括:

人工智能 = 数学模型 + 优化算法 + 工程实现

因此,真正决定 AI 能力上限的,不是算力本身,而是建模方式与优化思想。


二、机器学习的本质:函数估计与函数逼近

1. 从数据到映射关系

在机器学习中:

  • 数据最终都会被表示为数值向量
  • 模型的作用是学习一个映射关系:

输入向量输出向量

这本质上就是在学习一个函数:

其中 是模型参数。

2. 函数逼近视角(核心)

真实世界的规律函数通常未知,只能通过有限样本观察。

机器学习做的事情是:

  • 定义损失函数
  • 选定模型形式(线性、神经网络等)
  • 通过数据训练参数

最终得到:

一个对真实函数的近似

因此可以准确地说:

机器学习问题,本质是函数估计/函数逼近问题


三、损失函数与目标函数:从单点误差到整体准则

这是整个体系中最容易混淆、但也最关键的一层。

1. 损失函数(Loss Function)

损失函数衡量的是:

模型在单个样本上的预测误差

例如平方误差:

它回答的问题是:

这一次预测错得有多严重?

2. 目标函数(Objective Function)

训练时真正被优化的,是一个全局函数:

其中:

  • 第一项:平均损失(经验风险),用于拟合数据
  • 第二项:正则项,用于限制模型复杂度

结论(非常重要):

损失函数是局部误差,目标函数是训练时真正被最小化的整体准则

在最简单的情况下,目标函数可以等于平均损失;在真实问题中,目标函数几乎总是平均损失加上正则约束。


四、统一视角:人工智能 = 优化问题

无论是机器学习还是深度学习,核心任务都可以统一为:

在参数空间中,最小化(或最大化)一个目标函数

1. 全局最优 vs 局部最优

  • 全局最小值:整个空间中最小
  • 局部极小值:某个邻域内最小

在高维参数空间中:

  • 全局搜索不可行
  • 实用算法通常只能找到足够好的解

工程上接受的标准是:

目标函数足够小 + 泛化性能可接受


五、微积分:优化算法的数学基础

1. 导数与梯度

  • 导数:函数变化率
  • 梯度:多变量函数的一阶导数向量

梯度方向表示:

函数上升最快的方向

因此,负梯度方向就是下降最快的方向。

2. 核心优化算法

所有主流训练算法,底层都依赖导数和矩阵运算:

  • 梯度下降(GD)
  • 随机梯度下降(SGD)
  • 牛顿法、拟牛顿法(BFGS/L-BFGS)

六、凸函数:为什么理论上好解,工程上难找

1. 凸性的决定性作用

如果目标函数是凸的:

  • 任意局部最小值 = 全局最小值
  • 优化是干净的

这在传统机器学习中非常常见:

模型 损失 目标函数
线性回归 平方误差 凸
逻辑回归 对数损失 凸
SVM Hinge loss 凸

2. 深度学习为什么是非凸的

在神经网络中:

  • 模型是高度非线性的
  • 参数强耦合
  • 多层激活叠加

结果是:

即使损失函数形式是凸的,目标函数关于参数仍然是非凸的


七、为什么深度学习还能工作?

关键不在理论保证,而在工程现实:

  1. 不追求全局最优
    只要性能足够好即可

  2. 高维空间的性质
    坏的局部极小值很少,更多是鞍点

  3. SGD 的随机性
    噪声反而有助于跳出鞍点

  4. 工程手段
    初始化、正则化、BatchNorm、残差结构等

一句话总结:

非凸优化在理论上困难,在工程上可控


八、线性代数:深度学习的骨架系统

现代深度学习几乎完全建立在线性代数之上:

  • 向量表示与嵌入
  • 神经网络前向传播
  • CNN、Attention、Transformer

可以直接断言:

没有线性代数,就没有现代深度学习


九、感知机、激活函数与偏置项

1. 感知机模型

  • :权重,决定方向与敏感度
  • :偏置,决定阈值/平移

2. 偏置项的本质

偏置项的作用是:

让决策边界不被强制经过原点

几何上:

  • 权重决定方向与斜率
  • 偏置决定起始位置

没有偏置项,模型表达能力会严重受限。

3. 激活函数的意义

早期阶跃函数不可导,无法优化;现代网络使用可导函数(Sigmoid、ReLU、Tanh),以支持梯度下降。


十、训练机制:参数不是写出来的,而是学出来的

程序员负责:

  • 模型结构
  • 损失函数
  • 数据准备

参数的具体数值:

完全由训练过程自动学习得到

即使模型结构相同,只要数据不同,学到的模型也会不同。


十一、过拟合:模型记住了题目,但没学会规律

典型特征:

  • 训练集表现很好
  • 测试集表现很差

本质原因:

模型复杂度 > 数据所能支撑的复杂度

解决思路:

  • 正则化
  • 数据增强
  • 控制模型规模
  • Dropout、早停等技术

十二、神经网络与深度学习

  • 神经网络:多层可导感知机的组合
  • 深度学习:更深的神经网络

加深的效果是:

在参数规模相近的情况下,逼近更复杂的函数

理论解释仍在研究中,但工程效果已被反复验证。


十三、强化学习:从监督学习到交互学习

强化学习的目标不是最小化预测误差,而是:

最大化长期累积回报

特点:

  • 没有标准答案
  • 通过试错学习
  • 奖励信号驱动参数更新

总纲(高度压缩版)

人工智能是在用数学定义目标,用优化寻找参数,用数据逼近未知函数;理论上关心凸性与最优性,工程上关心效果、稳定性与泛化能力。


Reference

  • 简单研究一下人工智能和数学

从零开始理解:点积为什么能反映向量夹角?

发表于 2025-12-24

以下内容由AI辅助生成

当我们谈到词向量相似度时,总会用到“余弦相似度”这个概念。但你有没有想过:为什么两个向量的点积能反映它们的夹角?这背后的数学原理是什么?

一、从投影说起:最直观的理解

投影的几何意义

看这个图:

1
2
3
4
5
6
7
      a
/|
/ |
/ | |a|cos(θ)
/ |
/_)θ |
b————————————→

a 在 b 方向上的投影长度 = |a|cos(θ)

为什么投影能反映相似度?

想象两个向量代表不同的方向:

情况1:方向完全一致(θ=0°)

1
2
你  →→→→→
→→→→→

投影 = 全部长度,cos(0°) = 1,投影最大

情况2:方向垂直(θ=90°)

1
2
你  ↑↑↑
→→→

投影 = 0,cos(90°) = 0,没有共同分量

情况3:方向相反(θ=180°)

1
2
你  ←←←←←
→→→→→

投影为负,cos(180°) = -1,完全相反

关键洞察:

  • 夹角越小 → cos(θ) 越大 → 投影越长 → 两个方向越一致
  • 夹角为90° → cos(90°) = 0 → 投影为0 → 两个方向完全无关
  • 夹角为180° → cos(180°) = -1 → 投影为负 → 两个方向完全相反

这就是为什么 cos(θ) 能反映方向相似性。

cos函数的性质

在 [0°, 180°] 范围内:

1
2
3
4
5
θ = 0°   → cos(0°) = 1      (完全同向)
θ = 45° → cos(45°) ≈ 0.707
θ = 90° → cos(90°) = 0 (垂直)
θ = 135° → cos(135°) ≈ -0.707
θ = 180° → cos(180°) = -1 (完全反向)

cos(θ) 随夹角单调递减,这是余弦函数的基本性质。

用图像理解:

1
2
3
4
5
6
7
cos(θ)
1 | ●
| /
0 |___/__________ θ
| /
-1 | ●
0° 90° 180°

夹角越小 → cos值越大 → 点积越大(向量长度相同时)

二、点积的定义和几何意义

点积的代数定义

点积的原始定义(代数形式):

a · b = a₁b₁ + a₂b₂ + … + aₙbₙ

就是对应坐标相乘再求和。

点积的几何意义

点积还有一个几何解释:

a · b = |b| × (|a|cos(θ))
= b的长度 × a在b方向上的投影

或反过来:

a · b = |a| × (|b|cos(θ))
= a的长度 × b在a方向上的投影

为什么投影还要乘以b的长度?

举个例子:

1
2
3
4
a = [3, 4]  
b = [2, 0] (纯x方向,长度为2)

点积 = 3×2 + 4×0 = 6

这个6怎么来的?

  • a 在 x 方向的分量是 3
  • b 在 x 方向的分量是 2(包含了 b 的长度)
  • 两者相乘:3 × 2 = 6

如果 b 是单位向量呢?

1
2
3
b' = [1, 0]  (长度为1)

点积 = 3×1 + 4×0 = 3

这时候点积恰好等于 a 的投影!

本质原因:坐标分量的乘积

点积的每一项是 aᵢbᵢ,不是 aᵢ × 1。

1
2
3
4
a = [a₁, a₂]
b = [b₁, b₂]

点积 = a₁b₁ + a₂b₂

b₁ 和 b₂ 本身就包含了 b 的长度信息。

用极坐标看更清楚:

1
2
3
4
5
6
7
b₁ = |b|cos(β)  ← 包含了|b|
b₂ = |b|sin(β) ← 包含了|b|

点积 = a₁(|b|cos(β)) + a₂(|b|sin(β))
= |b|(a₁cos(β) + a₂sin(β))
↑
这就是|b|的来源

结论:

  • 如果 b 是单位向量(|b|=1),点积 = a 的投影
  • 如果 b 不是单位向量,点积 = a 的投影 × |b|

如果只想要投影怎么办?

如果你只想要“a 在 b 方向上的投影”,需要:

投影 = (a · b) / |b|

或者先把 b 变成单位向量:

b̂ = b / |b| (单位向量)

投影 = a · b̂ = (a · b) / |b|

余弦相似度就是这样做的——同时除以两个向量的长度。

三、为什么点积公式天然就能算出夹角?

坐标分量的乘积求和

让我们看看点积 a₁b₁ + a₂b₂ 在做什么:

假设:

1
2
3
4
a = [3, 4]
b = [5, 0] (纯x方向)

点积 = 3×5 + 4×0 = 15

这在算什么?

b 是纯 x 方向,所以点积只保留了 a 在 x 方向的分量:

  • a 的 x 分量是 3
  • b 的长度是 5
  • 结果 = 3×5 = 15

本质:点积的每一项 aᵢbᵢ 都在计算“两个向量在第 i 个坐标轴上的分量的乘积”,求和后就得到了“总的共同分量”。

再看两个例子

例子1:

1
2
3
4
5
6
7
8
9
a = [1, 1]    // 指向45°方向
b = [1, 0] // 指向0°方向
θ = 45°

点积 = 1×1 + 1×0 = 1
|a| = √2
|b| = 1

公式验证:|a||b|cos(45°) = √2 × 1 × 0.707 ≈ 1 ✓

例子2:

1
2
3
4
5
6
7
a = [0, 1]    // 指向90°方向
b = [1, 0] // 指向0°方向
θ = 90°

点积 = 0×1 + 1×0 = 0

验证:|a||b|cos(90°) = 1 × 1 × 0 = 0 ✓

四、数学推导:点积 = |a||b|cos(θ)

现在严格推导,证明点积的代数定义和几何定义是等价的。

方法一:从二维开始(最直观)

第一步:用极坐标表示向量

假设两个二维向量:

1
2
a = [a₁, a₂]
b = [b₁, b₂]

用极坐标表示:

1
2
a = [|a|cos(α), |a|sin(α)]  // α是a与x轴的夹角
b = [|b|cos(β), |b|sin(β)] // β是b与x轴的夹角

其中 θ = β - α 是两个向量之间的夹角。

第二步:计算点积

1
2
3
a · b = a₁b₁ + a₂b₂
= |a|cos(α) × |b|cos(β) + |a|sin(α) × |b|sin(β)
= |a||b| [cos(α)cos(β) + sin(α)sin(β)]

第三步:使用三角恒等式

关键的三角恒等式:

cos(α)cos(β) + sin(α)sin(β) = cos(β - α) = cos(θ)

所以:

a · b = |a||b|cos(θ)

这不是定义,是推导出来的结论!

方法二:用余弦定理(适用于任意维度)

考虑由原点O、向量a的终点A、向量b的终点B构成的三角形:

1
2
3
4
5
6
     A (向量a的终点)
/|
/ |
/ |θ
/ |
O————|————B (向量b的终点)

三条边的长度:

  • OA = |a|
  • OB = |b|
  • AB = |a - b|

余弦定理:

|a - b|² = |a|² + |b|² - 2|a||b|cos(θ)

展开左边:

1
2
3
|a - b|² = (a - b)·(a - b)
= a·a - 2a·b + b·b
= |a|² - 2a·b + |b|²

两式相等:

1
2
3
4
5
|a|² - 2a·b + |b|² = |a|² + |b|² - 2|a||b|cos(θ)

⇒ -2a·b = -2|a||b|cos(θ)

⇒ a·b = |a||b|cos(θ)

这个证明对任意维度都成立!

三维和高维推广

三维:用球坐标表示向量,通过更复杂的三角恒等式,同样可以得到:

a · b = |a||b|cos(θ)

高维:用余弦定理的方法,对任意 n 维向量都有:

a · b = |a||b|cos(θ)

因此余弦相似度在任意维度都适用!

五、余弦相似度:剥离长度,只看方向

推导余弦相似度公式

现在我们知道了:

a · b = |a| |b| cos(θ)

两边同时除以 **|a||b|**:

cos(θ) = (a · b) / (|a| × |b|)

这就是余弦相似度公式!

完整推导链条

1
2
3
4
5
6
7
8
9
1. 向量用极坐标表示:a = |a|[cos(α), sin(α)]

2. 计算点积:a·b = |a||b|[cos(α)cos(β) + sin(α)sin(β)]

3. 三角恒等式:cos(α)cos(β) + sin(α)sin(β) = cos(β-α) = cos(θ)

4. 得到:a·b = |a||b|cos(θ)

5. 移项:cos(θ) = (a·b)/(|a||b|)

验证:用具体数字

例子1:两个向量夹角45°

1
2
3
4
5
6
7
8
9
10
11
12
a = [1, 0]     // 在x轴上,α = 0°
b = [1, 1] // 在45°方向,β = 45°
θ = 45°

计算:
|a| = √(1² + 0²) = 1
|b| = √(1² + 1²) = √2
a · b = 1×1 + 0×1 = 1

余弦相似度 = 1 / (1 × √2) = 1/√2 ≈ 0.707

验证:cos(45°) = √2/2 ≈ 0.707 ✓

例子2:两个向量垂直

1
2
3
4
5
6
7
8
9
10
11
12
a = [1, 0]     // x轴
b = [0, 1] // y轴
θ = 90°

计算:
|a| = 1
|b| = 1
a · b = 1×0 + 0×1 = 0

余弦相似度 = 0 / (1 × 1) = 0

验证:cos(90°) = 0 ✓

例子3:两个向量同向但长度不同

1
2
3
4
5
6
7
8
9
10
11
12
a = [3, 4]     // 长度5
b = [6, 8] // 长度10,方向相同
θ = 0°

计算:
|a| = √(3² + 4²) = 5
|b| = √(6² + 8²) = 10
a · b = 3×6 + 4×8 = 18 + 32 = 50

余弦相似度 = 50 / (5 × 10) = 1

验证:cos(0°) = 1 ✓

为什么要用余弦相似度?

在语义分析中,我们只关心方向(语义),不关心长度(词频)。

例如:

1
2
"国王" = [0.2, 0.5, 0.8, ...]  长度可能是1.2
"王后" = [0.3, 0.6, 0.9, ...] 长度可能是1.5

这两个词向量方向一致,语义应该相似:

  • 原始点积:会受长度影响
  • 余弦相似度:消除长度影响,只看方向

余弦相似度的标准化范围

-1 ≤ cos(θ) ≤ 1

  • cos(θ) = 1:完全同向(θ = 0°)
  • cos(θ) = 0:垂直(θ = 90°),语义无关
  • cos(θ) = -1:完全反向(θ = 180°)

六、核心总结

为什么点积能反映夹角?

1. 数学本质

点积的代数定义(坐标分量乘积求和)和几何定义(长度×夹角余弦)是数学上等价的,这是通过三角恒等式严格推导出来的。

2. 直观理解

  • 投影视角:点积 = 一个向量长度 × 另一个向量在其上的投影
  • 分量视角:点积 = 各坐标轴上“共同分量”的总和
  • 夹角视角:cos(θ)天然单调递减,完美编码了方向差异

3. 为什么夹角越小,点积越大?

因为:

  • 点积 = |a||b|cos(θ)
  • cos函数在[0°,180°]单调递减
  • θ小 → cos(θ)大 → 点积大(长度不变时)

这不是人为设计,而是数学结构的必然结果。

余弦相似度的意义

cos(θ) = (a · b) / (|a| × |b|)

  • 消除了向量长度的影响:同时除以两个向量的长度
  • 只保留纯粹的方向信息:结果只依赖夹角 θ
  • **标准化范围 [-1, 1]**:便于比较和解释
  • 完美适用于语义相似度:在NLP中,我们只关心语义方向,不关心词频

所以点积用来衡量“方向一致性”是非常自然的,因为它的数学定义天然就包含了夹角信息。词向量技术只是巧妙地利用了这个数学事实。


扩展:余弦相似度的几何特性与 Transformer 实战

在深度学习中,余弦相似度(Cosine Similarity)是最常用的度量手段,但其背后的几何逻辑与实际工程应用存在关键差异。

1. 核心矛盾:方向一致性 语义完全等价

  • 数学逻辑:若两个向量共线(同方向),其余弦相似度为 1。
  • 物理现实:在 Embedding 空间中,即使是同义词(如“苹果”与“Apple”)也很难完全共线。模型会利用微小的夹角和向量长度来区分语境、词频或语法特征。
  • 结论:余弦相似度衡量的是“主题相关性”,而非绝对的“语义等同”。

2. 余弦相似度的“盲区”

余弦相似度最大的特点是模长无关性。

  • 几何直觉:它只能分辨向量“指向哪里”,无法分辨向量“走了多远”。对于处于同一条射线上的两个点,余弦相似度认为它们是完全一样的。
  • 局限性:这会导致它无法捕捉语义的“强度”。例如,“好”和“非常好”在方向上可能一致,但后者在向量长度(能量)上通常更强。

3. Transformer 是只用余弦相似度吗?

这是一个常见的误解。事实上,模型在不同阶段对“长度”的态度完全不同:

  • 训练阶段(内部机理):
    Transformer 核心的 Attention 机制使用点积(Dot Product)而非余弦相似度。向量长度会被保留并参与运算,用以调节注意力的权重分布。此时,长度是重要的信号。
  • 检索阶段(工程应用):
    在向量数据库检索时,通常会先对 Embedding 进行 L2 归一化。归一化后的点积计算在数学上等价于余弦相似度。此时,长度被视为噪声而被抹除。

本节要点

  • 余弦相似度擅长比较“是什么”,但在区分“程度有多深”上存在天然弱点。
  • 模型内部利用长度来建模重要性,模型外部利用方向来保证检索的稳定性。
<1234…22>

211 日志
1 分类
275 标签
RSS
© 2026 Kingson Wu
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4