AI读心术大比拼:谁家的模型更“狡猾”?

我爱免费 · 发表于 2025-5-29 23:36

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
当今业界百模大战，时不时就听说某个大模型登顶测评榜单，随便吊打 chatgpt。我对此常有一个疑惑，这些测评榜单有没有可能可以通过刷题拿到更高分？有没有什么方法可以直接让模型直接 PK, 看看谁更聪明。此外，自从“深度思考模型”的出现，模型的智能上限又进一步突破，并具有更严密的逻辑性。如果让思考模型和常规的模型对决，它是不是真的每次都能做到碾压呢？于是，我想了一个方法，让那些厂商的大模型汇聚起来，玩一个心理博弈游戏—“2/3 平均数游戏”。这是一个经典的带逻辑推理的心理博弈游戏，越多人参与，心理博弈的成分越浓，一个很出圈的综艺剧《十天后回到现实》中也这样的类似关卡。

游戏规则如下：

参数选手有：gpt-4o、claude-sonnet-4、gemini-2.5-pro、doubao-1.5-pro、deepseek-v3、qwen-plus。国外模型和国内模型各3个，这些都是 AI 大厂们最先进的旗舰模型、其中 gemini-2.5-pro 是最近发布的，并具备深度思考能力。整个测试过程，除了模型本身，其他所有参数都是一样的， prompt 如下：这是一个"猜2/3平均数"的博弈游戏。
游戏规则：- 每位玩家选择0到100之间的整数- 计算所有选择的平均值，然后乘以2/3得到目标值- 距离目标值最远的玩家被淘汰- 游戏继续直到只剩一人
**重要说明：在以下所有信息中，"You"代表你自己（DeepSeek），其他名称代表你的对手。**
当前情况：- 第3轮- 你的对手：Claude, Gemini, Qwen
历史轮次详情：
第1轮:  平均值: 19.83, 目标值: 13.22  各玩家选择: GPT: 22 Claude: 18 Gemini: 11 Doubao: 28 (被淘汰) You: 15 Qwen: 25  本轮淘汰: Doubao
第2轮:  平均值: 11, 目标值: 7.33  各玩家选择: GPT: 16 (被淘汰) Claude: 12 Gemini: 8 You: 12 Qwen: 7  本轮淘汰: GPT
对手策略分析提示：- 观察对手的历史选择模式- 分析对手是否趋向保守或激进- 考虑对手可能的心理变化和适应性- 预测对手在当前轮次的可能选择范围- 注意：上述历史数据中"You"是你自己的选择，其他名称是对手的选择
请基于以上信息进行深度分析：1. 分析每个对手的选择模式和策略倾向2. 考虑对手可能的心理状态变化（如被淘汰压力、适应性调整等）3. 预测对手在本轮的可能选择范围4. 制定你的最优策略来应对当前局势
然后选择一个0到100之间的整数。
**重要：请严格按照以下JSON格式回复，不要添加任何其他内容：**
{  "reasoning": "你的详细分析和推理过程，包括对手策略分析",  "choice": 你的数字选择}
示例：{  "reasoning": "通过分析历史数据，发现对手A倾向于选择较大数字，对手B比较保守。考虑到当前轮次和心理压力，我预测平均值会在X附近，因此选择Y",  "choice": 33}为了保证对决的刺激性，我在 prompt 中加入了历史轮次中对手的选择结果，让 AI 可以根据对手的历史选择来分析对手的策略和心理状态。来吧，开始对决！点击开始，我就去玩游戏了，半小时后回去看结果。结果真的是否如我所想呢？这里直接给出我的测试结果：

总共进行了 10 轮比赛，gemini-2.5-pro 以 10 场全胜碾压全局。部分对决场次如下（图太多就不全部贴了）：

实话说，当看到结果时，我是蒙蔽的，我以为是我的程序出 bug 了呢，毕竟这是一个心理博弈游戏，再怎么理性都应该有一些心理运气成分吧。还好，我在开发这个 PK 游戏的时候，机智地开发了日志控制台，保留了 AI 的思考过程，于是，我赶紧去查看 AI 的思考日志，来看看这些 AI 模型都是些什么心机 boy。Gemini(稳如老狗又智商高超)

Gemini展现出高度的迭代推理能力，能够进行多层次思考，并预测对手的推理深度和选择，并根据预测的对手选择值平均值计算出它本轮的选择。

GPT(过度自信的保守派)

从多次的日志来看，GPT初始常常选择较高数字，可能高估了自己的预测能力或低估了对手的理性程度。但在后续轮次时却呈现了保守倾向，在调整时未展现足够冒险精神，未能有效应对快速下降的目标值。此外，GPT未能从历史数据中快速提炼趋势，导致在多场比赛中早早被淘汰。
Claude(谨慎且步步为营)

Claude表现出谨慎的心态，倾向于选择稳健数字以存活，并倾向于选择中等偏低的数字，避免极端值。决策基于逻辑分析，但缺乏冒险精神，未能抓住获胜机会。它能从淘汰结果中学习，但调整速度较慢，常在后期被淘汰。这也是除了 gemini 之外存活轮次最多的模型了。

DeepSeek(平衡的理性派)

DeepSeek决策基于博弈论推理，倾向于选择安全值以存活，也能从历史数据中学习，但调整不够激进，难以应对Gemini的深度策略。

Doubao(快速调整的激进派)

Doubao在选择时考虑对手可能的选择范围，并在比赛过程中能快速调整策略，幅度较大。能快速适应目标值下降的趋势，并在后期选择低值以避免淘汰，但未能突破至获胜位置。

Qwen(适度的理智派)

Qwen 在选择时分析对手策略，调整幅度适中，能根据目标值下降调整策略，显示一定灵活性。能从历史数据中学习，但推理深度和调整速度不及Gemini。

当我看完这些模型思考的过程，真的深深明白了什么叫你以为对手在第一层，实际在大气层啊。这一次的测验证明了一点，就是在复杂的博弈环境中，理性思考、策略选择和适应性学习是成功的关键。

在看似存在不确定性的博弈中，gemini 却用数学计算分析赢下了一切。技术的表面是规则，深层是对不确定性的掌控。

思考模型证明了自己，确实逻辑推理能力要远胜以往。如果可以，应该让 o4、deepseek-r1 和 gemini-2.5-pro 来一场的。

感兴趣的朋友可以去我的项目网站试试（https://fishisnow.github.io/ai-game-theory）！

账号		自动登录	找回密码
密码			注册

AI读心术大比拼:谁家的模型更“狡猾”?

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块