前言

这些年，关于大语言模型（LLM）的讨论从未停止。从 GPT-3 到 GPT-4，从 Claude 到 Gemini，模型的能力在飞速提升。但对于后端工程师来说，真正的问题不是"这个模型有多强"，而是：

在一个真实运行的生产系统中，这个模型如何与代码、数据库、API 和用户交互？它有哪些系统层面的行为特征是我们必须理解和应对的？

这本书，正是为这个问题而写。

目标读者

本书的核心立场是：

把 LLM 当作概率系统来理解，而不是当作"推理实体"。

模型不"思考"，模型只是在一个巨大的概率空间里找最可能的下一步。这种视角会让你对 LLM 的能力、局限和工程权衡有更清醒的判断。

我们不会长篇讨论数学推导，也不会逐段解读论文。我们要做的是：

本书分为三层，由底向上：

第一层 奠定数学和机器学习基础，确保后续讨论有共同的概念基础。

第二层 深入 LLM 内部机制，理解 transformer、attention、token 生成，理解 LLM 为什么会产生当前的输出。

第三层 讨论 LLM 与外部系统的连接，包括 RAG、tool calling、agent 设计等实际系统集成问题。

本书是开源项目，欢迎提出问题、建议和修正。你可以在 GitHub 仓库中提交 issue 或 pull request。