前言
这些年,关于大语言模型(LLM)的讨论从未停止。从 GPT-3 到 GPT-4,从 Claude 到 Gemini,模型的能力在飞速提升。但对于后端工程师来说,真正的问题不是"这个模型有多强",而是:
在一个真实运行的生产系统中,这个模型如何与代码、数据库、API 和用户交互?它有哪些系统层面的行为特征是我们必须理解和应对的?
这本书,正是为这个问题而写。
目标读者
- 有工程背景但无 AI 基础的后端工程师
- 想要理解 LLM 内部原理的开发者
- 对 LLM 应用架构感兴趣的架构师
- 想要从系统层面思考 LLM 的任何人
设计哲学
本书的核心立场是:
把 LLM 当作概率系统来理解,而不是当作"推理实体"。
模型不"思考",模型只是在一个巨大的概率空间里找最可能的下一步。这种视角会让你对 LLM 的能力、局限和工程权衡有更清醒的判断。
我们不会长篇讨论数学推导,也不会逐段解读论文。我们要做的是:
- 建立对 LLM 工作方式的直觉
- 理解 token、attention、embedding 这些核心概念
- 掌握 RAG、agent、tool calling 等外部集成模式
- 形成对 LLM 工程实践的系统性认知
本书结构
本书分为三层,由底向上:
第一层 奠定数学和机器学习基础,确保后续讨论有共同的概念基础。
第二层 深入 LLM 内部机制,理解 transformer、attention、token 生成,理解 LLM 为什么会产生当前的输出。
第三层 讨论 LLM 与外部系统的连接,包括 RAG、tool calling、agent 设计等实际系统集成问题。
参与贡献
本书是开源项目,欢迎提出问题、建议和修正。你可以在 GitHub 仓库中提交 issue 或 pull request。