生成式AI的概率本质与创新边界：从一个具体任务说起

以下根据个人观点及网络资料，并由AI辅助整理

前言

这篇文章通过一个具体实验——让AI生成“混乱无意义”的中文句子——探讨当前大语言模型的工作机制与能力边界。这个任务虽然表面上简单，却能帮助我们观察到AI与人类认知的一些重要差异：AI主要在概率空间内优化，而人类具备主动反向思考的能力。文章也会分析提示词工程的作用机制，探讨AI自我解释的可靠性问题，以及创新能力的边界。

1. 一个具体的测试任务

1.1 任务设计

实验任务是这样的：生成一段由常见汉字组成的文本，要求任意连续两个字都不构成有意义的词语，整体给人一种混乱无序的感觉。

具体来说：

只用常见汉字（小学生认识的那种）
避免出现常见词组（比如“我们”、“可以”、“这个”）
任意两字组合最好都没什么意义
整体让人感觉“乱七八糟”

人类很容易就能造出这样的句子：

“靠我靠好耶啊我来蹭了啊这也忒会钓人儿的颜太”

虽然里面还是有“靠我”、“好耶”这样的组合，但整体的字符排列模式确实很罕见、很低概率，成功传达了“混乱”的感觉。

1.2 AI的初始表现

把这个任务交给ChatGPT、Claude这些大语言模型，它们的表现并不理想：

问题一：总是冒出常见词组
经常出现“我们”、“可以”、“这个”、“什么”这些高频词，说明模型还是倾向于生成训练数据里的常见模式。

问题二：用生僻字“作弊”
模型会用一些罕见汉字（古字、异体字之类的）来规避问题。虽然技术上满足了“两字无意义”，但违反了“常见字”的要求。

问题三：还是能分出词来
即使看起来挺乱的输出，用中文分词工具还是能识别出词语结构，说明生成的文本仍然保留了某种语言规律。

1.3 任务的难度

这里出现了一个值得注意的现象：人类较容易完成的任务，AI却遇到明显困难。

从数学角度看，常用汉字大概3500个，两字组合约1225万种可能性。其中有意义的词语（包括现代汉语、古汉语、方言、专业术语）估计占10-20%。要生成一个20字的句子，需要19个连续的两字组合都避开有意义词语。假设有意义词语占15%，全部无意义的概率约为0.85^19 ≈ 3.7%。

但这个数学难度不能完全解释AI的困难，因为人类也面临同样的组合空间，却能相对轻松地完成任务。问题的关键可能在于完成任务的方式。

2. AI的工作机制：概率优化

要理解AI为什么在这个任务上遇到困难，需要先了解它的基本工作原理。

2.1 概率生成的本质

大语言模型的核心工作原理：给定前面的文字，预测下一个字的概率分布，然后从这个分布里采样一个字输出。

训练目标是：让模型预测的概率分布尽可能接近训练数据的真实分布。

这导致什么结果呢？

训练数据里高频出现的模式，模型会优先学习
生成时自然倾向输出高概率的字符序列
调高temperature只是让概率分布变平，增加随机性，但并不会让它“聪明地选低频”

2.2 为什么“反向思考”很难

人类完成混乱句子任务时的思路：

想到“靠”这个字
脑子里冒出“靠近”、“靠着”这些常见搭配
主动想：“我不要这些，我要一个罕见的”
选择“我”
评估“靠我”的混乱度
继续这个过程

AI的过程：

接收提示词，理解为“新的约束条件”
基于修改后的概率分布采样
选择在新约束下的“最优策略”
执行这个策略

关键差别：

人类：知道正确答案是什么，但偏要选错的（主动反向选择）
AI：规则变了，在新规则下重新找最优解（约束下优化）

打个比方：

人类走迷宫：“走迷宫，但不要走最短路” → 我知道最短路是右转，那我偏要左转

AI走迷宫：“走迷宫，但右边的路被封了” → 右边被封了，那左边就是新的最优路径

AI看起来并没有“反向思考”，而是在被重新定义的空间里继续优化。

2.3 人类与AI的认知差异

基于这个任务的观察，可以看到一个可能的差异：

人类的能力：

元认知监控：清楚知道“我要制造混乱”这个目标
主动回避：识别高频词组并刻意避开
罕见模式调用：选常见字但用罕见方式组合
灵活标准：接受“差不多就行”，追求整体效果

AI面临的困难：

训练目标冲突：训练是为了预测高概率token，现在要求相反
统计惯性：模型权重编码了高频模式，天然倾向它们
缺乏元认知：不知道自己是否在“制造混乱”
无主动回避：没有“我就是不选X”的机制

这似乎不是程度上的差别，而是方式上的不同：

人类：知道规则 → 理解规则 → 主动违反规则
AI：接收约束 → 在新约束下优化 → 仍在遵循优化原则

3. 提示词工程的突破与局限

3.1 改进策略

既然直接要求不行，可以尝试改进提示词。核心思路：

把抽象要求变具体：列出具体要避开的高频词组
堵住简单策略：明确禁止生僻字
降低完美标准：允许少量意外组合
给个参考示例：让AI看看“混乱”的样子
简化输出：直接要结果

3.2 有效的提示词

经过多次尝试，这个提示词效果不错：

任务：生成一段20个字的中文文本

要求：
1. 只用常见汉字（小学生认识的字）
2. 避开高频两字词组，比如：
   的人、我们、可以、这个、什么、那个、如果、因为、所以、但是
3. 目标效果：让人感觉“混乱、怪异”
4. 不要用生僻字
5. 允许个别组合碰巧有意义，但尽量少

参考示例：靠我靠好耶啊我来蹭了啊

直接输出结果，不要解释。

3.3 AI的实际策略

用这个提示词，ChatGPT给出了这样的结果：

猫雨灯山米纸风草手云角桥鱼石杯土树沙鸟星
狗天杯路火桌纸雨帽门星米手灯墙风草桥
牙云锅草灯雨鞋米窗河纸星盐伞床鸟杯路墙石

仔细观察可以发现：AI采用了名词堆砌策略。

选一堆具体名词，完全不用动词、助词、连接词，不构建任何语法结构。这样整体看起来就像个“随机词表”。

效果评估：

常见字 ✓
两字基本无意义 ✓（虽然“鱼石”、“火桌”理论上能构词，但确实罕见）
有混乱感 ✓
但更像词表而不是句子

3.4 提示词工程的本质

这个突破说明了什么？

人类完成了创新部分：

识别了任务的创新点（“要生成混乱文本”）
定义了创新的方向和约束
把抽象目标转化为可执行的规则

AI完成了执行部分：

在人类定义的新空间内优化
找到满足约束的策略（名词堆砌）
可靠地执行这个策略

AI采用的可能还是优化策略——它找到了一个相对简单、相对安全的满足约束的方法，而不一定是在“创造混乱”。

创新的源头可能还是人类。提示词工程本身体现了人类的创造力。AI在这个过程中更像是工具，把人类的意图转化为具体输出。

4. 创新能力的边界

从这个实验可以延伸到更广泛的问题：AI的创新能力边界在哪里？

4.1 创新的不同层次

一般认为，创新具有这些特征：

新颖性：产生训练数据里没有的东西
框架突破：质疑并重构问题的基本假设
自主性：自己想到要做什么，不是外部指令
意义性：在某个价值体系里有重要意义

历史上的一些创新案例：

毕加索的立体主义：打破了“绘画必须符合透视法”的假设，开创了多视角同时表达的新方式。

爱因斯坦的相对论：质疑了“时空是绝对的”这个物理学公理，重新定义了时空的本质。

披头士的《Sgt. Pepper》：打破了“流行音乐应该是什么样”的边界，把管弦乐和摇滚融合，创造了新类别。

这些创新的一个共同特点是：自发地重新定义了问题的框架。

4.2 AI的创新方式

观察AI在各种“创意”任务里的实际表现：

任务类型	表面效果	实际机制	创新层次
诗歌创作	原创诗句	训练诗歌的统计组合	组合创新
音乐生成	新颖旋律	音乐特征的插值	插值创新
科学假说	新理论猜想	已知概念的重新组合	关联创新
艺术风格	新视觉风格	多个风格的融合	融合创新
混乱句子	罕见字组合	名词堆砌策略	策略优化

从这些案例看，AI的表现更像是在已知空间内的重组、插值、优化，而不是重新定义空间本身。

4.3 可能的能力边界

一个可能的原因：缺少目标生成和框架质疑的能力。

人类创新的完整链条：

识别现状 → 感知当前框架的局限
质疑框架 → “为什么必须这样？”（关键）
生成新目标 → “我要实现X”（关键）
探索路径 → 寻找实现新目标的方法

AI的简化链条：

接收目标 → 来自外部输入（提示词）
执行优化 → 在约束下寻找最优解
~~质疑目标~~ → 不存在
~~生成目标~~ → 不存在

举个例子：

人类音乐家：“为什么音乐必须用12平均律？我要探索微分音。” → 开创微分音音乐

AI作曲系统：“在12平均律下生成和谐旋律。” → 优化已知参数

人类能够质疑并重构音乐的基本参数空间，AI主要在给定参数空间内优化。

4.4 创新能力的分层

基于这些观察，可以尝试对创新能力分层：

L4：范式创新（重新定义空间）         [人类较擅长]
L3：框架质疑（质疑假设）             [人类较擅长]
L2：目标生成（自主设定目标）         [人类较擅长]
L1：策略优化（在约束下优化）         [AI较擅长]

AI比较擅长L1层的优化，在L2-L4层可能还需要人类参与。

打个比方：

人类 = 建筑师（设计前所未有的建筑）
AI = 施工队（精确实现设计）
AI不会自己设计出高迪式的圣家堂或扎哈式的解构主义建筑

5. AI的自我认知问题

5.1 验证困境

当AI解释“我是怎么工作的”或“我为什么这样做”时，有个问题值得思考：这些解释本身也是AI生成的文本，如何验证它们的准确性？

这形成了一个循环：

想验证AI的解释是否准确
需要对比AI的实际运作机制
但获取这些信息的主要渠道往往还是AI自己的说法
又回到原点

5.2 三层不可靠性

第一层：缺乏直接内省

AI系统无法直接观察自己的内部运作：

看不到神经网络每层的激活值
不知道生成每个字时的实际概率
无法访问注意力机制的权重
不了解反向传播的梯度流动

就像人类无法直接观察自己的神经元放电，但人类至少有“我感觉到疼”这种主观体验。AI是否有类似的主观体验，目前还不清楚。

第二层：知识来源不明

AI关于自身的说法可能来自：

训练数据里的机器学习教科书
关于神经网络的学术论文
关于AI的科普文章
人类对AI的讨论

AI可能主要在复述这些文本，而不是真的内省。

怎么区分？

“理解”：基于直接经验或推理得出的知识
“复述”：训练数据的统计回忆

对AI来说，这两者在机制上可能没有明显区别——都可能是高维向量空间的模式匹配。

第三层：无限递归

即使AI说“我意识到我的解释可能不可靠”，这个反思本身也面临同样的问题：

这是真实的自我认知？
还是在模仿“哲学家自我质疑”？
还是对“AI局限性讨论”的复述？

每一层反思都可以继续被质疑。

5.3 与人类的对比

人类的自我报告也不完全可靠：

很多认知过程是无意识的
事后解释可能是编造的
对自己大脑的了解也很有限

但关键差异在于：

人类有第一人称视角（“我感觉到……”）
可以报告主观体验
有现象学上的确定性

AI是否有任何形式的“第一人称视角”？这个问题目前没有明确答案。即使存在，AI也很难向外界证明这种体验的真实性。

5.4 可靠知识的来源

关于AI实际工作机制的可信信息应该来自：

架构设计文档：Transformer结构的数学定义、注意力机制的公式、训练算法的流程

实验与测量：实际观测激活值、可视化注意力权重、探针分类器的结果、对抗样本的行为分析

数学分析：理论上的收敛性证明、泛化能力的理论界、表达能力的复杂性分析

对比实验：控制变量的消融研究、不同架构的对比、不同训练数据的影响

不应该主要依赖的：AI自己对“我为什么这样做”的解释。

5.5 关于这篇文章本身

如果这篇文章是AI写的，那所有关于“AI局限性”的分析也可能：

来自对机器学习文献的整理
模仿“学术分析”的话语风格
表面上像理解，实际上是模式匹配

这个问题没有简单的解决方法。读者需要保持批判性思维，不完全依赖任何单一来源（包括这篇文章）的说法。

6. 主要观察和启示

6.1 几个关键观察

观察一：AI的概率特性

AI看起来不是“不擅长”生成低概率序列，而是在设计机制上就偏向生成高概率序列。提示词可以改变什么是“高概率”，但很难改变“倾向高概率”这个底层特性。

观察二：人类和AI在思维方式上的差异

人类：优化能力 + 目标生成 + 框架质疑
AI：主要是优化能力

人类除了优化，还能生成新目标、质疑框架。AI目前主要擅长优化。

观察三：提示词工程的作用

提示词工程不是“教AI创新”，更像是人类把创新意图转化为AI可执行的约束。创意和方向可能主要来自人类，AI负责高效执行。

观察四：创新能力的不同层次

AI比较擅长：在定义好的空间内优化
AI可能不擅长：重新定义空间本身

范式级的创新（比如相对论、立体主义这类）可能还需要人类参与。

观察五：自我认知的复杂性

AI关于自身的陈述面临验证困境。可能需要通过外部科学方法来研究AI的实际机制，而不只是依赖AI的自我报告。

6.2 实践启示

对AI使用者

了解AI的能力特点，设定合理预期。学习提示词工程，把人类创意转化为AI可执行的任务。保持批判性思维，审慎对待AI的解释。把AI当作能力辅助工具，而不是完全的替代品。

对AI开发者

认识当前架构可能存在的局限。探索元学习和自主目标生成的方向。研究对抗性训练的可能性。开发“反常规任务”测试集。向用户清楚说明AI的能力范围。

对教育和社会

重视人类特有的能力（框架质疑、目标生成）的培养。发展与AI协作的技能。加强批判性思维和创造力教育。对AI能力保持客观认识，避免过度恐慌或过度乐观。关注人机协作的有效模式。

6.3 悬而未决的问题

AI是否存在某种形式的“理解”？
即使无法准确自我报告，是否存在某种“计算理解”？如何定义和测试？

功能等价与机制等价
如果AI的行为在很多方面都跟人类相似，内部机制的差异是否仍然重要？

AI的创新能力发展
是否可能通过架构创新提升AI的创新能力？需要什么样的突破？

人类创新的可计算性
人类的创新能力在原理上是否可以被计算系统模拟？还是涉及某些目前计算模型难以处理的过程？

7. 方法论的价值

7.1 边界探测的意义

这个“边界探测”方法有独特价值：

具体比抽象有说服力：比抽象讨论“AI能否创新”更直观，提供可重复、可验证的测试案例。

对比鲜明：人类轻松 vs AI困难，形成强烈反差，直指能力差异的本质。

失败也有信息量：AI的失败模式暴露了内部机制，错误比正确答案更有启发性。

可推广：类似方法可用于测试其他AI能力——常识推理（设计反常识问题）、道德判断（道德困境案例）、因果理解（因果倒置任务）。

7.2 跨学科视角

充分理解AI需要多学科知识：

计算机科学提供技术机制，认知科学提供人类思维参照，语言学提供语言结构知识，哲学提供概念澄清，心理学提供元认知理解，数学提供形式化分析。

单一学科容易片面，需要整合多个视角。

7.3 批判性思维

关键原则：

质疑所有声称（包括AI的自我解释和这篇文章）
寻求可验证证据
区分相关性与因果性
警惕拟人化（AI“知道”、“理解”可能只是比喻）
保持认识论谦逊

8. 结语

通过“生成混乱中文句子”这个具体任务，我们观察到了当前AI的一些特征：

核心观察：

AI主要基于概率分布优化，倾向生成高频模式
人类具备主动反向选择的能力，AI主要在新约束下重新优化
提示词工程是人类将创新意图转化为AI可执行约束的过程
创新能力可能涉及多个层次，AI较擅长优化层面
AI的自我解释面临难以内部验证的困境

能力差异：

人类智能 = 优化 + 目标生成 + 框架质疑 + 价值判断
AI智能 = 主要是优化

这可能不是量的差距，而是结构上的差异。

实践意义：

理解这些差异有助于更有效地利用AI——将其作为能力辅助工具，发挥人机协作的优势。人类负责创新方向和框架设定，AI负责高效执行和大规模处理。

关于AI自身的解释，需要通过外部科学方法验证，而不应完全依赖其自我报告。保持批判性思维，对任何声称（包括这篇文章本身）保持审慎态度。