拉巴力的纸皮箱

技术博客 | 记录学习笔记和思考

首页
标签
归档
关于
搜索

LLM标签

LayerNorm：从“为什么要归一化”到“为什么 Transformer 离不开它”

02-02

Transformer 架构笔记：组件、机制与设计思路

02-02

从 RNN 到 Transformer:序列建模的结构性转变

01-31

从 One-hot 到 Embedding：词的分布式表示是如何从语料中学习得到的

01-31

为什么点积太大会导致 Softmax 梯度问题，以及这个问题是如何被解决的

01-30

残差连接（Residual Connection）：从直觉困境到现代神经网络的核心结构

01-30

从 0 理解梯度消失与梯度爆炸

01-30

链式法则与反向传播：从直觉到结构理解

01-30

感知机与神经网络如何学习并逼近复杂函数

01-30

交叉熵损失与最大似然估计：完全理解指南

01-29

<123 4 >

© 2026 Kingson Wu

由 Hexo 强力驱动

|

主题 — NexT.Pisces v5.1.4