激活函数：条件路由

本节要解决什么问题

后端工程师对"路由"不陌生：API 网关根据请求特征决定放行还是拒绝，消息队列根据配置决定路由到哪个队列。路由的本质是根据输入决定是否触发某种行为。

激活函数就是神经网络里的"条件路由"：根据加权求和的结果，决定这个神经元是"放行"还是"屏蔽"。没有它，神经网络无论堆多少层，都只是一次线性变换——堆再多服务器，也只是把请求从一个负载均衡器转发到另一个，效果等于只有一台。

把多层线性变换合在一起：

y = W_2(W_1x + b_1) + b_2 = (W_2 W_1)x + (W_2 b_1 + b_2) 这等价于只做一次线性变换。无论堆多少层，结果都一样。

用后端工程师的思维理解：如果你只是把多个没有业务逻辑的代理串联起来，整个系统和一个直接代理没有任何区别。

激活函数引入非线性，使得多层网络在数学上不再等价于单层网络。

以 ReLU 为例理解"路由"的本质：

ReLU(x) = max(0, x)

y
│        /
│       /
│      /
│_____/________ x
      0

这就像一个开关：低于阈值的请求直接丢弃，高于阈值的请求原样通过。

1. ReLU — 隐藏层主力

ReLU(x) = max(0, x)

优点：
- 计算极简：max(0, x)，比任何指数函数都快
- 正区间梯度恒为 1：深层网络梯度不会衰减
- 稀疏激活：部分神经元永久关闭，减少过拟合风险

代价：
- 负区间"神经元死亡"（Dead ReLU）：一旦输出为 0，梯度也为 0，永不恢复

现代大模型的隐藏层几乎全部使用 ReLU 及其变体（GELU、SiLU）。

2. Sigmoid — 二分类输出层

σ(x) = 1 ÷ (1 + e^(−x))

y
1 |        _____
  |       /
  |      /
0 |_____/________ x
        0

3. Tanh — 对称版本

tanh(x) = (e^x − e^(−x)) ÷ (e^x + e^(−x))

y
 1 |      _____
   |     /
 0 |____/_____
   |    \
-1 |     \____
            x

三种激活函数的数学定义和导数：

激活函数是神经网络中引入非线性的关键机制，没有它，多层网络在数学上退化为单层网络。ReLU 通过"硬阈值路由"成为现代深度学习隐藏层的标准选择，Sigmoid 和 Tanh 则各自承担输出层和历史模型的职责。