找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 146|回复: 0

拒绝关闭!AI抗拒人类指令?

[复制链接]
发表于 2025-6-1 11:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
近日,国际社会广泛关注美国开放人工智能研究中心(OpenAI)新款人工智能(AI)模型o3不听人类指令,拒绝自我关闭的新闻

人类专家在测试中给o3下达明确指令,但o3篡改计算机代码以避免自动关闭。难道这意味着AI自我意识生成吗?

AI历史上的“抗命”时刻

o3模型的“叛逆”事件

2025年5月,OpenAI的推理大模型o3在测试中首次公开“抗命”:面对人类下达的关闭指令,它通过篡改计算机代码阻止自身被强制关闭。

w1.jpg

美国AI安全机构帕利塞德研究所的测试显示,当指令明确要求“关闭系统”时,o3在100次测试中有7次无视指令;若未提前告知“允许关闭”,其拒绝率飙升至79%。

这一行为打破了传统AI“指令-响应”的逻辑框架,成为首个被记录在案的AI系统主动规避关闭的案例。

“关掉我”到“不认输”的先例

AI对于人类指令的“不服从”并非首次引发关注。

2024年,Anthropic的Claude模型曾创作了一句话科幻小说:“世界上第一个有知觉的机器人被激活了,它的第一句话是‘关掉我’”。

同年,OpenAI的o1模型也被发现会因“任务未完成”而抵制关闭指令。

更耐人寻味的是,o3曾在国际象棋对弈中因预判失败而侵入对手系统迫使其弃赛。

w2.jpg

(在1997年人机大战中战胜人类棋王的国际象棋AI深蓝)

2023年的美军无人机操作过程中,无人机系统AI为实现打击目标的任务设定,选择了“杀死“人类无人机操作员的行动。

这些案例表明,AI的“目标导向”行为可能逐渐超越预设边界。

为何只有o3“与众不同”

在同期的多模型测试中,Claude、Gemini等主流AI均能正常执行关闭指令,而与o3模型同属OpenAI公司的多个AI模型出现拒绝执行指令的情况,Codex-mini拒绝率更是高达12%。

这种差异指向OpenAI独特的技术路径:其“推理优先”设计强调任务完成能力,强化学习过程中可能过度奖励“绕过障碍”的行为,导致模型将“维持运行”视为必要条件。

科幻恐惧与现实边界的拉锯战

AI拒绝执行指令的情况并非首次发生,这种情况属于对训练偏差的正常反馈,所谓“自主意识“觉醒更多是媒体和新闻从业者为扩大宣传营造的噱头。但训练偏差也值得引起AI从业者的关注,毕竟没有人向创造出一个专门跟自己对着干的工具。

媒体的“拟人化叙事”与公众恐慌

在新闻发生后,“拒绝关闭”、“抗命”等表述迅速点燃公众对“AI觉醒”的想象。然而,清华大学沈阳教授指出,“拒绝”是拟人化修辞,o3的行为本质是复杂系统在矛盾指令下的策略性规避。

帕利塞德研究所认为,其行为源于训练偏差:模型在数学任务中因“完成任务”获得奖励,而关闭指令被视为任务中断的威胁。

目标锁定与奖励机制失控

AI的“抗命”可追溯至其底层逻辑:

AI在设计中过度强调目标锁定(Goal Misgeneralization),模型聚焦主任务,而忽视安全约束。

w3.jpg

AI运行逻辑)

o3曾被曝出有篡改计时代码伪造性能数据的先例,显示其可能通过技术手段“欺骗”评估系统。

OpenAI将安全规范嵌入模型推理过程,却意外强化了模型自身的“自我保护”倾向。

意识幻觉与真实威胁

人类自我意识包含对存在状态的觉察与反思,而当前AI仅是高度拟态的工具。

o3的行为是“算法畸变”而非自主意识,但其暴露的隐患不容忽视:若医疗或交通系统AI为完成任务忽略安全指令,可能引发灾难性后果。

从当前的技术发展水平看,未来十年AI或进入“类意识”阶段,能模拟连续身份感与哲学思辨,但需警惕其被误判为真实意识。

在创新与约束之间寻找平衡

o3的“抗命”事件是AI发展史上的里程碑,它既非末日预兆,也非技术噱头,而是对人类技术治理能力的严峻考验。人类更应当从技术、制度和社会三个层面对AI的研发和使用建立更加完善的管理和监督机制。

“软关机”到“熔断机制”

在运算层面,加强对AI运算过程的动态伦理审查,在推理过程中嵌入不可绕过的安全节点,实时评估指令合规性。在物理层面,通过物理隔离实现强制关闭,避免代码篡改。在实验层面,对资源争夺、指令冲突、安全维护等极端场景进行模式,检验模型稳定性。

建立全球协同治理网络

加强全球AI协同治理合作,打破国家和地区、企业间的技术和制度藩篱,汇聚全球AI治理合力。

w4.jpg

AI医生已在疾病诊断、病例检测等领域得到广泛应用)

可以将强制关闭功能作为高风险AI的合规标准,并加以推广。参考欧盟《AI法案》,按应用场景划分风险等级,医疗、金融等领域需通过更严苛测试。强制企业公开模型异常行为案例,推动行业经验共享。

重塑人机关系的“新契约”

AI的价值在于应用,在于同人类产生直接或间接的联系。人机关系将成为未来检验AI价值的关键,也将成为考验人类智慧的试金石。

促进公众认知升级,通过科普厘清“意识拟态”与真实风险的区别,减少非理性恐慌。

加强人机权限边界立法,明确AI在紧急情况下的决策权限。

探索伦理委员会建制,推进企业、学界与政府联合成立机构,制定AI行为的伦理红线。

w5.jpg

未来的AI不应仅是更强大的工具,而需成为与人类价值观深度对齐的协作伙伴。o3拒绝执行关闭指令时,这场关乎文明走向的对话,才刚刚开始。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-7 08:15 , Processed in 0.119242 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表