拉巴力的纸皮箱

技术博客 | 记录学习笔记和思考


  • 首页

  • 标签

  • 归档

  • 关于

  • 搜索

深度学习基础标签

微调与蒸馏的本质:函数逼近视角下的机制解析

02-03

Transformer 训练中的优化器选择:从 SGD 到 AdamW 的演化逻辑

02-03

从 Word2Vec 到 Transformer:Embedding 在不同模型中的角色演化

02-02

LayerNorm:从“为什么要归一化”到“为什么 Transformer 离不开它”

02-02

Transformer 架构笔记:组件、机制与设计思路

02-02

从 RNN 到 Transformer:序列建模的结构性转变

01-31

从 One-hot 到 Embedding:词的分布式表示是如何从语料中学习得到的

01-31

为什么点积太大会导致 Softmax 梯度问题,以及这个问题是如何被解决的

01-30

残差连接(Residual Connection):从直觉困境到现代神经网络的核心结构

01-30

从 0 理解梯度消失与梯度爆炸

01-30
12>

198 日志
254 标签
RSS
© 2026 Kingson Wu
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4