我们使用 AI 大模型,惊喜于它给出的每一个回复,但还没有谁弄清楚 AI 的智能是如何起作用的。为了确保大模型能够按照人类的意愿工作, 几乎每个大模型产品内部都会被注入一段算法,这段算法保证 AI 工作与人类意愿对齐。不同的力量都在试图对齐这家公司,Ilya Sutskever 成为「执剑者」,Sam Altman 给出了反击,双方的两种立场让这家 AI 大模型公司内部的分歧浮出水面。
OpenAI 认为,ChatGPT 的突破之所以可能,离不开 RLHF。而 RLHF 算法的工作就叫做 AI 对齐。
AI 对齐是为了保证 AI 按照人类的意图和价值观做事,给出人类有用的、诚实的和无害的结果。在今天运行的大模型训练当中,对齐已经成为最为必要的部分之一。
除了上面提到的 ChatGPT 的例子,AI 对齐还要解决 AI 在交流中会给出错误信息和算法歧视等问题,被人类滥用、「越狱」等问题,以及应对未来随着 AI 能力「涌现」而可能出现的失控风险。因此可以把 AI 对齐比作是一场人类跟 AI 进化的赛跑,更强的 AI 系统需要更多的对齐工作,也面临更高等级的风险。
但 AI 大模型内部原理对于前沿的 AI 实验室来说仍然是个「黑箱」,这就要求 AI 对齐要尽量跑在大模型的前面,并要求大模型是一个稳定的研究对象。
OpenAI 超级对齐负责人 Jan Leike 做过一个预判,构建高性能的强 AI 系统需要两个因素:能力和对齐。但在当前的弱 AI 时期,大模型没有能力带来灾难性后果,与 GPT 给人类带来的惊喜相比,AI 对齐的重要性存在被轻视的情况。对齐算法会在大模型运行过程中分走部分算力资源,也会影响大模型输出的结果,人们常把这种影响叫做「性能阉割」,把对齐分走的算力称为「对齐税」。
CEO和首席科学家的分歧
回到 OpenAI 的这场闹剧,如果把 OpenAI 看作一个 AI 大模型,Sam Altman 主张提升能力,通过融资和商业化等操作吞噬巨量资源,追求变快变强。Ilya Sutskever 领导的部分则像 AI 对齐一样的存在,主张小心翼翼地把车开稳。
随着 AI 大模型发展加速,OpenAI 意识到要把对齐工作提升到新的高度。今年 7 月,OpenAI 宣布成立超级对齐团队(Superalignment),由 Ilya Sutskever 和 Jan Leike 两位科学家领导,他们将带着公司 20% 的算力资源,在 4 年内解决超智能 AI 系统的价值对齐和安全问题。
与此同时,Sam Altman 带着 GPT 进化,连续推动发布性能更强的 GPT 版本。
可以看到,两个工作团队即使不存在分歧,至少也存在张力,裂缝可能从这里开始产生。
Ilya Sutskever 指责 Sam Altman 在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力。而董事会的职责是确保 OpenAI 作为一家非营利组织能够开发造福全人类的「通用人工智能 AGI」。
在今年仅剩 6 人的董事会中,有 4 人更认可 AI 安全的重要性,Ilya Sutskever 因此能够使用投票权开除 Sam Altman。
Ilya Sutskever 曾提到,他参与创建 OpenAI 的动机之一,是为了探讨和解决 AGI 可能带来的问题,包括技术和道德方面的挑战。当他看到或者被告知这种挑战首先出现在公司内部而不是 AI 当中时,他有理由为了自己的信念行使权力,裂缝由此扩大。
可他始终没有给出具体的例证说明 Sam Altman 不坦诚在哪里,会带来哪些后果。Ilya Sutskever 挑起的风波就像 AI 对齐工作中被拿走的「对齐税」,他暂时限制了 OpenAI 的能力,又无法说明在他眼中这种限制的必要性。