拉巴力的纸皮箱
技术博客 | 记录学习笔记和思考
首页
标签
归档
关于
搜索
深度学习基础
标签
微调与蒸馏的本质:函数逼近视角下的机制解析
02-03
Transformer 训练中的优化器选择:从 SGD 到 AdamW 的演化逻辑
02-03
从 Word2Vec 到 Transformer:Embedding 在不同模型中的角色演化
02-02
LayerNorm:从“为什么要归一化”到“为什么 Transformer 离不开它”
02-02
Transformer 架构笔记:组件、机制与设计思路
02-02
从 RNN 到 Transformer:序列建模的结构性转变
01-31
从 One-hot 到 Embedding:词的分布式表示是如何从语料中学习得到的
01-31
为什么点积太大会导致 Softmax 梯度问题,以及这个问题是如何被解决的
01-30
残差连接(Residual Connection):从直觉困境到现代神经网络的核心结构
01-30
从 0 理解梯度消失与梯度爆炸
01-30
1
2
>