拉巴力的纸皮箱

技术博客 | 记录学习笔记和思考


  • 首页

  • 标签

  • 归档

  • 关于

  • 搜索

LLM标签

LayerNorm:从“为什么要归一化”到“为什么 Transformer 离不开它”

02-02

Transformer 架构笔记:组件、机制与设计思路

02-02

从 RNN 到 Transformer:序列建模的结构性转变

01-31

从 One-hot 到 Embedding:词的分布式表示是如何从语料中学习得到的

01-31

为什么点积太大会导致 Softmax 梯度问题,以及这个问题是如何被解决的

01-30

残差连接(Residual Connection):从直觉困境到现代神经网络的核心结构

01-30

从 0 理解梯度消失与梯度爆炸

01-30

链式法则与反向传播:从直觉到结构理解

01-30

感知机与神经网络如何学习并逼近复杂函数

01-30

交叉熵损失与最大似然估计:完全理解指南

01-29
<1234>

205 日志
255 标签
RSS
© 2026 Kingson Wu
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4