生成式AI的概率本质与创新边界:从一个具体任务说起

以下根据个人观点及网络资料,并由AI辅助整理

前言

这篇文章通过一个具体实验——让AI生成“混乱无意义”的中文句子——探讨当前大语言模型的工作机制与能力边界。这个任务虽然表面上简单,却能帮助我们观察到AI与人类认知的一些重要差异:AI主要在概率空间内优化,而人类具备主动反向思考的能力。文章也会分析提示词工程的作用机制,探讨AI自我解释的可靠性问题,以及创新能力的边界。


1. 一个具体的测试任务

1.1 任务设计

实验任务是这样的:生成一段由常见汉字组成的文本,要求任意连续两个字都不构成有意义的词语,整体给人一种混乱无序的感觉。

具体来说:

  • 只用常见汉字(小学生认识的那种)
  • 避免出现常见词组(比如“我们”、“可以”、“这个”)
  • 任意两字组合最好都没什么意义
  • 整体让人感觉“乱七八糟”

人类很容易就能造出这样的句子:

“靠我靠好耶啊我来蹭了啊这也忒会钓人儿的颜太”

虽然里面还是有“靠我”、“好耶”这样的组合,但整体的字符排列模式确实很罕见、很低概率,成功传达了“混乱”的感觉。

1.2 AI的初始表现

把这个任务交给ChatGPT、Claude这些大语言模型,它们的表现并不理想:

问题一:总是冒出常见词组
经常出现“我们”、“可以”、“这个”、“什么”这些高频词,说明模型还是倾向于生成训练数据里的常见模式。

问题二:用生僻字“作弊”
模型会用一些罕见汉字(古字、异体字之类的)来规避问题。虽然技术上满足了“两字无意义”,但违反了“常见字”的要求。

问题三:还是能分出词来
即使看起来挺乱的输出,用中文分词工具还是能识别出词语结构,说明生成的文本仍然保留了某种语言规律。

1.3 任务的难度

这里出现了一个值得注意的现象:人类较容易完成的任务,AI却遇到明显困难。

从数学角度看,常用汉字大概3500个,两字组合约1225万种可能性。其中有意义的词语(包括现代汉语、古汉语、方言、专业术语)估计占10-20%。要生成一个20字的句子,需要19个连续的两字组合都避开有意义词语。假设有意义词语占15%,全部无意义的概率约为0.85^19 ≈ 3.7%。

但这个数学难度不能完全解释AI的困难,因为人类也面临同样的组合空间,却能相对轻松地完成任务。问题的关键可能在于完成任务的方式


2. AI的工作机制:概率优化

要理解AI为什么在这个任务上遇到困难,需要先了解它的基本工作原理。

2.1 概率生成的本质

大语言模型的核心工作原理:给定前面的文字,预测下一个字的概率分布,然后从这个分布里采样一个字输出。

训练目标是:让模型预测的概率分布尽可能接近训练数据的真实分布。

这导致什么结果呢?

  • 训练数据里高频出现的模式,模型会优先学习
  • 生成时自然倾向输出高概率的字符序列
  • 调高temperature只是让概率分布变平,增加随机性,但并不会让它“聪明地选低频”

2.2 为什么“反向思考”很难

人类完成混乱句子任务时的思路:

  1. 想到“靠”这个字
  2. 脑子里冒出“靠近”、“靠着”这些常见搭配
  3. 主动想:“我不要这些,我要一个罕见的”
  4. 选择“我”
  5. 评估“靠我”的混乱度
  6. 继续这个过程

AI的过程:

  1. 接收提示词,理解为“新的约束条件”
  2. 基于修改后的概率分布采样
  3. 选择在新约束下的“最优策略”
  4. 执行这个策略

关键差别

  • 人类:知道正确答案是什么,但偏要选错的(主动反向选择
  • AI:规则变了,在新规则下重新找最优解(约束下优化

打个比方:

人类走迷宫:“走迷宫,但不要走最短路” → 我知道最短路是右转,那我偏要左转

AI走迷宫:“走迷宫,但右边的路被封了” → 右边被封了,那左边就是新的最优路径

AI看起来并没有“反向思考”,而是在被重新定义的空间里继续优化。

2.3 人类与AI的认知差异

基于这个任务的观察,可以看到一个可能的差异:

人类的能力

  • 元认知监控:清楚知道“我要制造混乱”这个目标
  • 主动回避:识别高频词组并刻意避开
  • 罕见模式调用:选常见字但用罕见方式组合
  • 灵活标准:接受“差不多就行”,追求整体效果

AI面临的困难

  • 训练目标冲突:训练是为了预测高概率token,现在要求相反
  • 统计惯性:模型权重编码了高频模式,天然倾向它们
  • 缺乏元认知:不知道自己是否在“制造混乱”
  • 无主动回避:没有“我就是不选X”的机制

这似乎不是程度上的差别,而是方式上的不同:

人类:知道规则 → 理解规则 → 主动违反规则
AI:接收约束 → 在新约束下优化 → 仍在遵循优化原则


3. 提示词工程的突破与局限

3.1 改进策略

既然直接要求不行,可以尝试改进提示词。核心思路:

  • 把抽象要求变具体:列出具体要避开的高频词组
  • 堵住简单策略:明确禁止生僻字
  • 降低完美标准:允许少量意外组合
  • 给个参考示例:让AI看看“混乱”的样子
  • 简化输出:直接要结果

3.2 有效的提示词

经过多次尝试,这个提示词效果不错:

1
2
3
4
5
6
7
8
9
10
11
12
13
任务:生成一段20个字的中文文本

要求:
1. 只用常见汉字(小学生认识的字)
2. 避开高频两字词组,比如:
的人、我们、可以、这个、什么、那个、如果、因为、所以、但是
3. 目标效果:让人感觉“混乱、怪异”
4. 不要用生僻字
5. 允许个别组合碰巧有意义,但尽量少

参考示例:靠我靠好耶啊我来蹭了啊

直接输出结果,不要解释。

3.3 AI的实际策略

用这个提示词,ChatGPT给出了这样的结果:

  • 猫雨灯山米纸风草手云角桥鱼石杯土树沙鸟星
  • 狗天杯路火桌纸雨帽门星米手灯墙风草桥
  • 牙云锅草灯雨鞋米窗河纸星盐伞床鸟杯路墙石

仔细观察可以发现:AI采用了名词堆砌策略。

选一堆具体名词,完全不用动词、助词、连接词,不构建任何语法结构。这样整体看起来就像个“随机词表”。

效果评估:

  • 常见字 ✓
  • 两字基本无意义 ✓(虽然“鱼石”、“火桌”理论上能构词,但确实罕见)
  • 有混乱感 ✓
  • 但更像词表而不是句子

3.4 提示词工程的本质

这个突破说明了什么?

人类完成了创新部分

  • 识别了任务的创新点(“要生成混乱文本”)
  • 定义了创新的方向和约束
  • 把抽象目标转化为可执行的规则

AI完成了执行部分

  • 在人类定义的新空间内优化
  • 找到满足约束的策略(名词堆砌)
  • 可靠地执行这个策略

AI采用的可能还是优化策略——它找到了一个相对简单、相对安全的满足约束的方法,而不一定是在“创造混乱”。

创新的源头可能还是人类。提示词工程本身体现了人类的创造力。AI在这个过程中更像是工具,把人类的意图转化为具体输出。


4. 创新能力的边界

从这个实验可以延伸到更广泛的问题:AI的创新能力边界在哪里?

4.1 创新的不同层次

一般认为,创新具有这些特征:

  • 新颖性:产生训练数据里没有的东西
  • 框架突破:质疑并重构问题的基本假设
  • 自主性:自己想到要做什么,不是外部指令
  • 意义性:在某个价值体系里有重要意义

历史上的一些创新案例:

毕加索的立体主义:打破了“绘画必须符合透视法”的假设,开创了多视角同时表达的新方式。

爱因斯坦的相对论:质疑了“时空是绝对的”这个物理学公理,重新定义了时空的本质。

披头士的《Sgt. Pepper》:打破了“流行音乐应该是什么样”的边界,把管弦乐和摇滚融合,创造了新类别。

这些创新的一个共同特点是:自发地重新定义了问题的框架

4.2 AI的创新方式

观察AI在各种“创意”任务里的实际表现:

任务类型 表面效果 实际机制 创新层次
诗歌创作 原创诗句 训练诗歌的统计组合 组合创新
音乐生成 新颖旋律 音乐特征的插值 插值创新
科学假说 新理论猜想 已知概念的重新组合 关联创新
艺术风格 新视觉风格 多个风格的融合 融合创新
混乱句子 罕见字组合 名词堆砌策略 策略优化

从这些案例看,AI的表现更像是在已知空间内的重组、插值、优化,而不是重新定义空间本身

4.3 可能的能力边界

一个可能的原因:缺少目标生成和框架质疑的能力

人类创新的完整链条:

  1. 识别现状 → 感知当前框架的局限
  2. 质疑框架 → “为什么必须这样?”(关键)
  3. 生成新目标 → “我要实现X”(关键)
  4. 探索路径 → 寻找实现新目标的方法

AI的简化链条:

  1. 接收目标 → 来自外部输入(提示词)
  2. 执行优化 → 在约束下寻找最优解
  3. 质疑目标 → 不存在
  4. 生成目标 → 不存在

举个例子:

人类音乐家:“为什么音乐必须用12平均律?我要探索微分音。” → 开创微分音音乐

AI作曲系统:“在12平均律下生成和谐旋律。” → 优化已知参数

人类能够质疑并重构音乐的基本参数空间,AI主要在给定参数空间内优化。

4.4 创新能力的分层

基于这些观察,可以尝试对创新能力分层:

1
2
3
4
L4:范式创新(重新定义空间)         [人类较擅长]
L3:框架质疑(质疑假设) [人类较擅长]
L2:目标生成(自主设定目标) [人类较擅长]
L1:策略优化(在约束下优化) [AI较擅长]

AI比较擅长L1层的优化,在L2-L4层可能还需要人类参与。

打个比方:

  • 人类 = 建筑师(设计前所未有的建筑)
  • AI = 施工队(精确实现设计)
  • AI不会自己设计出高迪式的圣家堂或扎哈式的解构主义建筑

5. AI的自我认知问题

5.1 验证困境

当AI解释“我是怎么工作的”或“我为什么这样做”时,有个问题值得思考:这些解释本身也是AI生成的文本,如何验证它们的准确性?

这形成了一个循环:

  • 想验证AI的解释是否准确
  • 需要对比AI的实际运作机制
  • 但获取这些信息的主要渠道往往还是AI自己的说法
  • 又回到原点

5.2 三层不可靠性

第一层:缺乏直接内省

AI系统无法直接观察自己的内部运作:

  • 看不到神经网络每层的激活值
  • 不知道生成每个字时的实际概率
  • 无法访问注意力机制的权重
  • 不了解反向传播的梯度流动

就像人类无法直接观察自己的神经元放电,但人类至少有“我感觉到疼”这种主观体验。AI是否有类似的主观体验,目前还不清楚。

第二层:知识来源不明

AI关于自身的说法可能来自:

  • 训练数据里的机器学习教科书
  • 关于神经网络的学术论文
  • 关于AI的科普文章
  • 人类对AI的讨论

AI可能主要在复述这些文本,而不是真的内省

怎么区分?

  • “理解”:基于直接经验或推理得出的知识
  • “复述”:训练数据的统计回忆

对AI来说,这两者在机制上可能没有明显区别——都可能是高维向量空间的模式匹配。

第三层:无限递归

即使AI说“我意识到我的解释可能不可靠”,这个反思本身也面临同样的问题:

  • 这是真实的自我认知?
  • 还是在模仿“哲学家自我质疑”?
  • 还是对“AI局限性讨论”的复述?

每一层反思都可以继续被质疑。

5.3 与人类的对比

人类的自我报告也不完全可靠:

  • 很多认知过程是无意识的
  • 事后解释可能是编造的
  • 对自己大脑的了解也很有限

但关键差异在于:

  • 人类有第一人称视角(“我感觉到……”)
  • 可以报告主观体验
  • 有现象学上的确定性

AI是否有任何形式的“第一人称视角”?这个问题目前没有明确答案。即使存在,AI也很难向外界证明这种体验的真实性。

5.4 可靠知识的来源

关于AI实际工作机制的可信信息应该来自:

架构设计文档:Transformer结构的数学定义、注意力机制的公式、训练算法的流程

实验与测量:实际观测激活值、可视化注意力权重、探针分类器的结果、对抗样本的行为分析

数学分析:理论上的收敛性证明、泛化能力的理论界、表达能力的复杂性分析

对比实验:控制变量的消融研究、不同架构的对比、不同训练数据的影响

不应该主要依赖的:AI自己对“我为什么这样做”的解释。

5.5 关于这篇文章本身

如果这篇文章是AI写的,那所有关于“AI局限性”的分析也可能:

  • 来自对机器学习文献的整理
  • 模仿“学术分析”的话语风格
  • 表面上像理解,实际上是模式匹配

这个问题没有简单的解决方法。读者需要保持批判性思维,不完全依赖任何单一来源(包括这篇文章)的说法。


6. 主要观察和启示

6.1 几个关键观察

观察一:AI的概率特性

AI看起来不是“不擅长”生成低概率序列,而是在设计机制上就偏向生成高概率序列。提示词可以改变什么是“高概率”,但很难改变“倾向高概率”这个底层特性。

观察二:人类和AI在思维方式上的差异

人类:优化能力 + 目标生成 + 框架质疑
AI:主要是优化能力

人类除了优化,还能生成新目标、质疑框架。AI目前主要擅长优化。

观察三:提示词工程的作用

提示词工程不是“教AI创新”,更像是人类把创新意图转化为AI可执行的约束。创意和方向可能主要来自人类,AI负责高效执行。

观察四:创新能力的不同层次

AI比较擅长:在定义好的空间内优化
AI可能不擅长:重新定义空间本身

范式级的创新(比如相对论、立体主义这类)可能还需要人类参与。

观察五:自我认知的复杂性

AI关于自身的陈述面临验证困境。可能需要通过外部科学方法来研究AI的实际机制,而不只是依赖AI的自我报告。

6.2 实践启示

对AI使用者

了解AI的能力特点,设定合理预期。学习提示词工程,把人类创意转化为AI可执行的任务。保持批判性思维,审慎对待AI的解释。把AI当作能力辅助工具,而不是完全的替代品。

对AI开发者

认识当前架构可能存在的局限。探索元学习和自主目标生成的方向。研究对抗性训练的可能性。开发“反常规任务”测试集。向用户清楚说明AI的能力范围。

对教育和社会

重视人类特有的能力(框架质疑、目标生成)的培养。发展与AI协作的技能。加强批判性思维和创造力教育。对AI能力保持客观认识,避免过度恐慌或过度乐观。关注人机协作的有效模式。

6.3 悬而未决的问题

AI是否存在某种形式的“理解”?
即使无法准确自我报告,是否存在某种“计算理解”?如何定义和测试?

功能等价与机制等价
如果AI的行为在很多方面都跟人类相似,内部机制的差异是否仍然重要?

AI的创新能力发展
是否可能通过架构创新提升AI的创新能力?需要什么样的突破?

人类创新的可计算性
人类的创新能力在原理上是否可以被计算系统模拟?还是涉及某些目前计算模型难以处理的过程?


7. 方法论的价值

7.1 边界探测的意义

这个“边界探测”方法有独特价值:

具体比抽象有说服力:比抽象讨论“AI能否创新”更直观,提供可重复、可验证的测试案例。

对比鲜明:人类轻松 vs AI困难,形成强烈反差,直指能力差异的本质。

失败也有信息量:AI的失败模式暴露了内部机制,错误比正确答案更有启发性。

可推广:类似方法可用于测试其他AI能力——常识推理(设计反常识问题)、道德判断(道德困境案例)、因果理解(因果倒置任务)。

7.2 跨学科视角

充分理解AI需要多学科知识:

计算机科学提供技术机制,认知科学提供人类思维参照,语言学提供语言结构知识,哲学提供概念澄清,心理学提供元认知理解,数学提供形式化分析。

单一学科容易片面,需要整合多个视角。

7.3 批判性思维

关键原则:

  • 质疑所有声称(包括AI的自我解释和这篇文章)
  • 寻求可验证证据
  • 区分相关性与因果性
  • 警惕拟人化(AI“知道”、“理解”可能只是比喻)
  • 保持认识论谦逊

8. 结语

通过“生成混乱中文句子”这个具体任务,我们观察到了当前AI的一些特征:

核心观察

  • AI主要基于概率分布优化,倾向生成高频模式
  • 人类具备主动反向选择的能力,AI主要在新约束下重新优化
  • 提示词工程是人类将创新意图转化为AI可执行约束的过程
  • 创新能力可能涉及多个层次,AI较擅长优化层面
  • AI的自我解释面临难以内部验证的困境

能力差异

人类智能 = 优化 + 目标生成 + 框架质疑 + 价值判断
AI智能 = 主要是优化

这可能不是量的差距,而是结构上的差异。

实践意义

理解这些差异有助于更有效地利用AI——将其作为能力辅助工具,发挥人机协作的优势。人类负责创新方向和框架设定,AI负责高效执行和大规模处理。

关于AI自身的解释,需要通过外部科学方法验证,而不应完全依赖其自我报告。保持批判性思维,对任何声称(包括这篇文章本身)保持审慎态度。