AI 的五个反认知观点:Richard Sutton 最新访谈启示
作者:微信文章“真正的智能不是模仿人类说话,而是从经验中学会行动。”——Richard Sutton,强化学习之父,2024 年图灵奖得主
当下人工智能(AI)界,大语言模型(LLM)热潮正如火如荼:无数企业和创业者热衷于生成式 AI、聊天机器人、自动文案,但你可曾想过,这条路线是否真能让机器“理解世界”?在最近接受公开访谈时,强化学习之父、图灵奖得主 Richard Sutton 提出了 五个反认知(anti‑cognition)观点,直击主流 AI 的核心偏差,也为未来智能体发展提供新的思路。
1️⃣ 语言预测 ≠ 理解世界
当前大语言模型的训练目标是“预测下一个单词”或“模仿人类文本”,它们可以生成流畅的文字、甚至看似富有逻辑的对话,但 Sutton 直言:
“它们并不是在预测世界,而是在预测人类会说什么。”
换句话说,LLM 没有真正的世界模型:它们不会因为行动而观察到反馈,也无法自主调整策略。你可以把它想象成一个永远在考试、只会猜题的学生——不会真正做实验、无法感知世界的变化。
2️⃣ 没有目标 = 没有真正智能
强化学习的核心是 奖励信号:智能体通过尝试行为并观察结果(奖励或惩罚)不断优化策略。Sutton 指出:
“没有目标,就没有对错、好坏、优劣。大语言模型试图在没有目标的情况下运行,这其实是从错误的起点开始。”
缺少明确的目标或价值信号,模型就难以发展出长期策略和适应性行为。它可能会生成合理的文本,却无法“做出行动决策”。
3️⃣ 持续学习才是关键
在现实世界中,智能体需要不断适应环境变化,而不是训练好就“冻结”。Sutton 强调:
“大语言模型不是在职场中学;它们的学习过程是一次性的。”
这也揭示了 LLM 的局限:它们无法在部署后继续从环境反馈中学习,这意味着在快速变化的现实世界中,它们的适应能力可能远低于人类或动物智能体。
4️⃣ 苦涩教训被误读
Sutton 早在 2019 年提出“苦涩教训”(The Bitter Lesson):在 AI 长期发展中,通用算法 + 计算扩展通常比嵌入过多领域知识更有效。但他警告:
“目前生成式 AI 的路径,并不是真正体现苦涩教训。它们把人类知识直接嵌入,而非从零经验演化而得。”
换言之,“只要更大更复杂就行”的思路,是对他理念的误读。真正的经验驱动方法,是让智能体在交互中自行发现规律,而非依赖人类预先整理好的数据。
5️⃣ 智能应以经验 + 行动为中心
Sutton 提倡的核心范式是:
行动:智能体在环境中尝试不同策略。
反馈:观察结果并获得奖励或惩罚。
更新:优化策略以提高未来表现。
“智能不是模仿人类,而是从经验中学习如何行动。”
这种思路在强化学习、机器人控制、游戏智能体中已有成功案例。相比单纯依赖语言预测,它能产生更通用、更可扩展的智能行为。
为什么值得关注
范式提醒:在大模型热潮中,这五个观点提醒我们:AI 不应只停留在文字表面,而应关注“行为 + 反馈 + 目标”的核心。
经验驱动的潜力:现实世界的任务,如机器人控制、物流优化、自动驾驶,仍然需要智能体能自主试错和适应。
避免过度拟人化:模仿人类行为 ≠ 真正智能。Sutton 的思路让我们从底层重新定义智能体能力。
限制与现实考量
样本效率低:现实世界中强化学习的探索成本高,稀疏奖励问题仍难解决。
安全风险:持续学习的智能体若缺乏约束,可能产生不可预测行为。
语言模型实用性:在文本生成、知识检索、对话接口等场景,LLM 表现仍不可替代。
整合趋势:未来 AI 更可能是“经验驱动 + 语言/知识融合”的混合范式,而非单一路径。
小结
Richard Sutton 的五个反认知观点为 AI 发展提供了不同于主流模仿路径的视角:
经验、目标、行动、反馈、持续学习,才是通向智能的核心法则。
对企业家、研究者乃至内容创作者而言,这意味着:
别只盯着大模型流量,思考如何将 AI 变成真正有用的“行动智能体”。
重视从真实场景中获得经验反馈的能力,而非单纯依赖训练数据。
在短期应用与长期智能探索之间找到平衡。
页:
[1]