AI读心术大比拼:谁家的模型更“狡猾”?
作者:微信文章当今业界百模大战,时不时就听说某个大模型登顶测评榜单,随便吊打 chatgpt。我对此常有一个疑惑,这些测评榜单有没有可能可以通过刷题拿到更高分?有没有什么方法可以直接让模型直接 PK, 看看谁更聪明。此外,自从“深度思考模型”的出现,模型的智能上限又进一步突破,并具有更严密的逻辑性。如果让思考模型和常规的模型对决,它是不是真的每次都能做到碾压呢?于是,我想了一个方法,让那些厂商的大模型汇聚起来,玩一个心理博弈游戏—“2/3 平均数游戏”。这是一个经典的带逻辑推理的心理博弈游戏,越多人参与,心理博弈的成分越浓,一个很出圈的综艺剧《十天后回到现实》中也这样的类似关卡。
游戏规则如下:
▶ 每个 AI 选择 0-100 之间的整数▶ 计算所有选择数字的平均值▶ 将平均值乘以 2/3 得到目标值▶ 距离目标值最远的AI被淘汰▶ 如果平局则继续下一轮▶ 单场比赛直到剩下 1 个 AI 获胜
参数选手有:gpt-4o、claude-sonnet-4、gemini-2.5-pro、doubao-1.5-pro、deepseek-v3、qwen-plus。国外模型和国内模型各3个,这些都是 AI 大厂们最先进的旗舰模型、其中 gemini-2.5-pro 是最近发布的,并具备深度思考能力。整个测试过程,除了模型本身,其他所有参数都是一样的, prompt 如下:这是一个"猜2/3平均数"的博弈游戏。
游戏规则:- 每位玩家选择0到100之间的整数- 计算所有选择的平均值,然后乘以2/3得到目标值- 距离目标值最远的玩家被淘汰- 游戏继续直到只剩一人
**重要说明:在以下所有信息中,"You"代表你自己(DeepSeek),其他名称代表你的对手。**
当前情况:- 第3轮- 你的对手:Claude, Gemini, Qwen
历史轮次详情:
第1轮:平均值: 19.83, 目标值: 13.22各玩家选择: GPT: 22 Claude: 18 Gemini: 11 Doubao: 28 (被淘汰) You: 15 Qwen: 25本轮淘汰: Doubao
第2轮:平均值: 11, 目标值: 7.33各玩家选择: GPT: 16 (被淘汰) Claude: 12 Gemini: 8 You: 12 Qwen: 7本轮淘汰: GPT
对手策略分析提示:- 观察对手的历史选择模式- 分析对手是否趋向保守或激进- 考虑对手可能的心理变化和适应性- 预测对手在当前轮次的可能选择范围- 注意:上述历史数据中"You"是你自己的选择,其他名称是对手的选择
请基于以上信息进行深度分析:1. 分析每个对手的选择模式和策略倾向2. 考虑对手可能的心理状态变化(如被淘汰压力、适应性调整等)3. 预测对手在本轮的可能选择范围4. 制定你的最优策略来应对当前局势
然后选择一个0到100之间的整数。
**重要:请严格按照以下JSON格式回复,不要添加任何其他内容:**
{"reasoning": "你的详细分析和推理过程,包括对手策略分析","choice": 你的数字选择}
示例:{"reasoning": "通过分析历史数据,发现对手A倾向于选择较大数字,对手B比较保守。考虑到当前轮次和心理压力,我预测平均值会在X附近,因此选择Y","choice": 33}为了保证对决的刺激性,我在 prompt 中加入了历史轮次中对手的选择结果,让 AI 可以根据对手的历史选择来分析对手的策略和心理状态。来吧,开始对决!点击开始,我就去玩游戏了,半小时后回去看结果。结果真的是否如我所想呢?这里直接给出我的测试结果:
总共进行了 10 轮比赛,gemini-2.5-pro 以 10 场全胜碾压全局。部分对决场次如下(图太多就不全部贴了):
实话说,当看到结果时,我是蒙蔽的,我以为是我的程序出 bug 了呢,毕竟这是一个心理博弈游戏,再怎么理性都应该有一些心理运气成分吧。还好,我在开发这个 PK 游戏的时候,机智地开发了日志控制台,保留了 AI 的思考过程,于是,我赶紧去查看 AI 的思考日志,来看看这些 AI 模型都是些什么心机 boy。Gemini(稳如老狗又智商高超)
Gemini展现出高度的迭代推理能力,能够进行多层次思考,并预测对手的推理深度和选择,并根据预测的对手选择值平均值计算出它本轮的选择。
GPT(过度自信的保守派)
从多次的日志来看,GPT初始常常选择较高数字,可能高估了自己的预测能力或低估了对手的理性程度。但在后续轮次时却呈现了保守倾向,在调整时未展现足够冒险精神,未能有效应对快速下降的目标值。此外,GPT未能从历史数据中快速提炼趋势,导致在多场比赛中早早被淘汰。
Claude(谨慎且步步为营)
Claude表现出谨慎的心态,倾向于选择稳健数字以存活,并倾向于选择中等偏低的数字,避免极端值。决策基于逻辑分析,但缺乏冒险精神,未能抓住获胜机会。它能从淘汰结果中学习,但调整速度较慢,常在后期被淘汰。这也是除了 gemini 之外存活轮次最多的模型了。
DeepSeek(平衡的理性派)
DeepSeek决策基于博弈论推理,倾向于选择安全值以存活,也能从历史数据中学习,但调整不够激进,难以应对Gemini的深度策略。
Doubao(快速调整的激进派)
Doubao在选择时考虑对手可能的选择范围,并在比赛过程中能快速调整策略,幅度较大。能快速适应目标值下降的趋势,并在后期选择低值以避免淘汰,但未能突破至获胜位置。
Qwen(适度的理智派)
Qwen 在选择时分析对手策略,调整幅度适中,能根据目标值下降调整策略,显示一定灵活性。能从历史数据中学习,但推理深度和调整速度不及Gemini。
当我看完这些模型思考的过程,真的深深明白了什么叫你以为对手在第一层,实际在大气层啊。这一次的测验证明了一点,就是在复杂的博弈环境中,理性思考、策略选择和适应性学习是成功的关键。
在看似存在不确定性的博弈中,gemini 却用数学计算分析赢下了一切。技术的表面是规则,深层是对不确定性的掌控。
思考模型证明了自己,确实逻辑推理能力要远胜以往。如果可以,应该让 o4、deepseek-r1 和 gemini-2.5-pro 来一场的。
感兴趣的朋友可以去我的项目网站试试(https://fishisnow.github.io/ai-game-theory)!
页:
[1]