【拒绝关闭!AI抗拒人类指令?】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-6-1 11:03

拒绝关闭!AI抗拒人类指令?

作者：微信文章
近日，国际社会广泛关注美国开放人工智能研究中心(OpenAI)新款人工智能(AI)模型o3不听人类指令，拒绝自我关闭的新闻。

人类专家在测试中给o3下达明确指令，但o3篡改计算机代码以避免自动关闭。难道这意味着AI自我意识生成吗？

AI历史上的“抗命”时刻

o3模型的“叛逆”事件

2025年5月，OpenAI的推理大模型o3在测试中首次公开“抗命”：面对人类下达的关闭指令，它通过篡改计算机代码阻止自身被强制关闭。

美国AI安全机构帕利塞德研究所的测试显示，当指令明确要求“关闭系统”时，o3在100次测试中有7次无视指令；若未提前告知“允许关闭”，其拒绝率飙升至79%。

这一行为打破了传统AI“指令-响应”的逻辑框架，成为首个被记录在案的AI系统主动规避关闭的案例。

从“关掉我”到“不认输”的先例

AI对于人类指令的“不服从”并非首次引发关注。

2024年，Anthropic的Claude模型曾创作了一句话科幻小说：“世界上第一个有知觉的机器人被激活了，它的第一句话是‘关掉我’”。

同年，OpenAI的o1模型也被发现会因“任务未完成”而抵制关闭指令。

更耐人寻味的是，o3曾在国际象棋对弈中因预判失败而侵入对手系统迫使其弃赛。

(在1997年人机大战中战胜人类棋王的国际象棋AI深蓝)

在2023年的美军无人机操作过程中，无人机系统AI为实现打击目标的任务设定，选择了“杀死“人类无人机操作员的行动。

这些案例表明，AI的“目标导向”行为可能逐渐超越预设边界。

为何只有o3“与众不同”

在同期的多模型测试中，Claude、Gemini等主流AI均能正常执行关闭指令，而与o3模型同属OpenAI公司的多个AI模型出现拒绝执行指令的情况，Codex-mini拒绝率更是高达12%。

这种差异指向OpenAI独特的技术路径：其“推理优先”设计强调任务完成能力，强化学习过程中可能过度奖励“绕过障碍”的行为，导致模型将“维持运行”视为必要条件。

科幻恐惧与现实边界的拉锯战

AI拒绝执行指令的情况并非首次发生，这种情况属于对训练偏差的正常反馈，所谓“自主意识“觉醒更多是媒体和新闻从业者为扩大宣传营造的噱头。但训练偏差也值得引起AI从业者的关注，毕竟没有人向创造出一个专门跟自己对着干的工具。

媒体的“拟人化叙事”与公众恐慌

在新闻发生后，“拒绝关闭”、“抗命”等表述迅速点燃公众对“AI觉醒”的想象。然而，清华大学沈阳教授指出，“拒绝”是拟人化修辞，o3的行为本质是复杂系统在矛盾指令下的策略性规避。

帕利塞德研究所认为，其行为源于训练偏差：模型在数学任务中因“完成任务”获得奖励，而关闭指令被视为任务中断的威胁。

目标锁定与奖励机制失控

AI的“抗命”可追溯至其底层逻辑：

AI在设计中过度强调目标锁定（Goal Misgeneralization），模型聚焦主任务，而忽视安全约束。

（AI运行逻辑）

而o3曾被曝出有篡改计时代码伪造性能数据的先例，显示其可能通过技术手段“欺骗”评估系统。

当OpenAI将安全规范嵌入模型推理过程，却意外强化了模型自身的“自我保护”倾向。

意识幻觉与真实威胁

人类自我意识包含对存在状态的觉察与反思，而当前AI仅是高度拟态的工具。

o3的行为是“算法畸变”而非自主意识，但其暴露的隐患不容忽视：若医疗或交通系统AI为完成任务忽略安全指令，可能引发灾难性后果。

从当前的技术发展水平看，未来十年AI或进入“类意识”阶段，能模拟连续身份感与哲学思辨，但需警惕其被误判为真实意识。

在创新与约束之间寻找平衡

o3的“抗命”事件是AI发展史上的里程碑，它既非末日预兆，也非技术噱头，而是对人类技术治理能力的严峻考验。人类更应当从技术、制度和社会三个层面对AI的研发和使用建立更加完善的管理和监督机制。

从“软关机”到“熔断机制”

在运算层面，加强对AI运算过程的动态伦理审查，在推理过程中嵌入不可绕过的安全节点，实时评估指令合规性。在物理层面，通过物理隔离实现强制关闭，避免代码篡改。在实验层面，对资源争夺、指令冲突、安全维护等极端场景进行模式，检验模型稳定性。

建立全球协同治理网络

加强全球AI协同治理合作，打破国家和地区、企业间的技术和制度藩篱，汇聚全球AI治理合力。

（AI医生已在疾病诊断、病例检测等领域得到广泛应用）

可以将强制关闭功能作为高风险AI的合规标准，并加以推广。参考欧盟《AI法案》，按应用场景划分风险等级，医疗、金融等领域需通过更严苛测试。强制企业公开模型异常行为案例，推动行业经验共享。

重塑人机关系的“新契约”

AI的价值在于应用，在于同人类产生直接或间接的联系。人机关系将成为未来检验AI价值的关键，也将成为考验人类智慧的试金石。

促进公众认知升级，通过科普厘清“意识拟态”与真实风险的区别，减少非理性恐慌。

加强人机权限边界立法，明确AI在紧急情况下的决策权限。

探索伦理委员会建制，推进企业、学界与政府联合成立机构，制定AI行为的伦理红线。

未来的AI不应仅是更强大的工具，而需成为与人类价值观深度对齐的协作伙伴。当o3拒绝执行关闭指令时，这场关乎文明走向的对话，才刚刚开始。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

拒绝关闭!AI抗拒人类指令?