AI大牛Andrej Karpathy解析:为何大语言模型无法像人类一样学习
作者:微信文章引言
知名播客博主Dwarkesh Patel近期采访了AI领域专家Andrej Karpathy(业内常称"卡神"),其中最引人深思的话题聚焦于大语言模型与人类学习方式的本质差异。
强化学习的局限:"用吸管吸取监督数据"
卡神用一个形象的比喻描述了强化学习的问题——"用吸管吸取监督数据"。这个比喻揭示了强化学习的核心缺陷:当AI获得成功结果(例如赢得棋局)时,最终的奖励会被平均分配到整个过程中的每一步、每一个生成的token上。即便某些中间步骤是错误的或无关紧要的,只要结果正确,这些步骤同样会获得正向反馈。
他坦言:"我以前就说过,人类不使用强化学习。我认为人类的学习方式完全不同。强化学习比普通人想的要糟糕得多。强化学习很烂。只不过,我们以前有的其他算法比它还要烂得多罢了。"
人类学习的独特机制
那么人类究竟如何学习?卡神给出了他的见解:
"我读一本书,这本书对我来说就是一套'提示词',好让我在脑子里'合成数据'。你必须通过主动地处理这些信息,才能真正获得知识。但大语言模型没有对应的机制;它们真的不会这么干。"
他期待在模型预训练阶段能够实现这样的环节:模型能够深入思考所读材料,并将其与已有知识融会贯通。然而,这一机制目前仍处于研究阶段。
合成数据训练面临的"坍塌"难题
为何不能直接将这种"思考"机制加入大语言模型的训练中?卡神指出了其中的微妙困难:
"如果我让模型对一本书进行'思考',并生成一些合成数据,你乍一看会觉得:'这看起来很棒啊!为什么不能用它来训练呢?'你是可以试试,但如果你坚持这么做,模型的性能实际上会变得更糟。"
问题在于缺乏多样性。当让模型对同一章节思考10次时,会发现这10次的回答几乎完全相同。模型无法像人类那样产生丰富多样、充满创造性的思考。如何在模型容易"坍塌"(回答趋于单一)的情况下,既利用合成数据又保持思维多样性,这仍是一个研究难题。
人类也会"坍塌"
有趣的是,卡神指出人类在一生中其实也会经历"坍塌":
"小孩子还没有'过拟合'。他们会说出一些让你震惊的话。那是因为他们还没'坍塌'。但我们成年人已经'坍塌'了。我们最终会反复琢磨同样的想法,我们说的话也越来越趋同,我们的学习率下降,'坍塌'的情况越来越糟,最后一切都退化了。"
Erik Hoel在论文《过拟合的大脑》中提出,人类做梦这一功能的进化目的,正是为了提升泛化能力,对抗日常学习带来的过拟合。
健忘是特性而非缺陷
这引出了一个有趣的对比:人类在学习能力最强的童年时期,却会忘记大量具体细节;成年人虽能学习,但对读过的内容记忆也很有限;而大语言模型能记住人类无法记住的海量文本细节,在泛化能力上却表现不佳。
对此,卡神给出了深刻见解:
"(人类健忘的记忆力)这恰恰是一个'特性',而不是一个'缺陷'。因为它逼着你只能去学习那些真正具有'泛化能力'的东西。而大语言模型呢,它们被自己记在(预训练)文档里的海量细节给'分心'了。这就是为什么我谈到'认知核心'时,我其实是想把(模型的)记忆力拿掉。我倒希望它们记性差一点,这样它们就必须去(主动)查资料,而只保留那些'思考的算法'、'做实验的想法',以及所有这些用于行动的'认知粘合剂'。"
这次访谈揭示了当前AI发展面临的深层挑战,也为未来研究方向提供了启发性思考。
页:
[1]