拉巴力的纸皮箱
技术博客 | 记录学习笔记和思考
首页
标签
归档
关于
搜索
Transformer
标签
Transformer 训练中的优化器选择:从 SGD 到 AdamW 的演化逻辑
02-03
从 Word2Vec 到 Transformer:Embedding 在不同模型中的角色演化
02-02
LayerNorm:从“为什么要归一化”到“为什么 Transformer 离不开它”
02-02
Transformer 架构笔记:组件、机制与设计思路
02-02
从 RNN 到 Transformer:序列建模的结构性转变
01-31