Transformer 训练中的优化器选择:从 SGD 到 AdamW 的演化逻辑
发表于
梳理神经网络优化器从 SGD 到 AdamW 的演化路径,以及 Transformer 训练中常见选择的原因。
从 Word2Vec 到 Transformer:Embedding 在不同模型中的角色演化
发表于
对比 Word2Vec 与 Transformer 中 embedding 的训练方式、参数角色与功能变化。
LayerNorm:从“为什么要归一化”到“为什么 Transformer 离不开它”
发表于
从数值尺度控制与训练稳定性出发,解释 LayerNorm 的作用及 Transformer 对它的依赖。