找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 242|回复: 0

AI读心术大比拼:谁家的模型更“狡猾”?

[复制链接]
发表于 2025-5-29 23:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
当今业界百模大战,时不时就听说某个大模型登顶测评榜单,随便吊打 chatgpt。我对此常有一个疑惑,这些测评榜单有没有可能可以通过刷题拿到更高分?有没有什么方法可以直接让模型直接 PK, 看看谁更聪明。此外,自从“深度思考模型”的出现,模型的智能上限又进一步突破,并具有更严密的逻辑性。如果让思考模型和常规的模型对决,它是不是真的每次都能做到碾压呢?于是,我想了一个方法,让那些厂商的大模型汇聚起来,玩一个心理博弈游戏—“2/3 平均数游戏”。这是一个经典的带逻辑推理的心理博弈游戏,越多人参与,心理博弈的成分越浓,一个很出圈的综艺剧《十天后回到现实》中也这样的类似关卡。
w1.jpg
游戏规则如下:
    ▶ 每个 AI 选择 0-100 之间的整数▶ 计算所有选择数字的平均值▶ 将平均值乘以 2/3 得到目标值▶ 距离目标值最远的AI被淘汰▶ 如果平局则继续下一轮▶ 单场比赛直到剩下 1 个 AI 获胜

参数选手有:gpt-4o、claude-sonnet-4、gemini-2.5-pro、doubao-1.5-pro、deepseek-v3、qwen-plus。国外模型和国内模型各3个,这些都是 AI 大厂们最先进的旗舰模型、其中 gemini-2.5-pro 是最近发布的,并具备深度思考能力。整个测试过程,除了模型本身,其他所有参数都是一样的, prompt 如下:这是一个"猜2/3平均数"的博弈游戏。
游戏规则:- 每位玩家选择0到100之间的整数- 计算所有选择的平均值,然后乘以2/3得到目标值- 距离目标值最远的玩家被淘汰- 游戏继续直到只剩一人
**重要说明:在以下所有信息中,"You"代表你自己(DeepSeek),其他名称代表你的对手。**
当前情况:- 第3轮- 你的对手:Claude, Gemini, Qwen
历史轮次详情:
第1轮:  平均值: 19.83, 目标值: 13.22  各玩家选择:    GPT: 22    Claude: 18    Gemini: 11    Doubao: 28 (被淘汰)    You: 15    Qwen: 25  本轮淘汰: Doubao
第2轮:  平均值: 11, 目标值: 7.33  各玩家选择:    GPT: 16 (被淘汰)    Claude: 12    Gemini: 8    You: 12    Qwen: 7  本轮淘汰: GPT
对手策略分析提示:- 观察对手的历史选择模式- 分析对手是否趋向保守或激进- 考虑对手可能的心理变化和适应性- 预测对手在当前轮次的可能选择范围- 注意:上述历史数据中"You"是你自己的选择,其他名称是对手的选择
请基于以上信息进行深度分析:1. 分析每个对手的选择模式和策略倾向2. 考虑对手可能的心理状态变化(如被淘汰压力、适应性调整等)3. 预测对手在本轮的可能选择范围4. 制定你的最优策略来应对当前局势
然后选择一个0到100之间的整数。
**重要:请严格按照以下JSON格式回复,不要添加任何其他内容:**
{  "reasoning": "你的详细分析和推理过程,包括对手策略分析",  "choice": 你的数字选择}
示例:{  "reasoning": "通过分析历史数据,发现对手A倾向于选择较大数字,对手B比较保守。考虑到当前轮次和心理压力,我预测平均值会在X附近,因此选择Y",  "choice": 33}为了保证对决的刺激性,我在 prompt 中加入了历史轮次中对手的选择结果,让 AI 可以根据对手的历史选择来分析对手的策略和心理状态。来吧,开始对决!点击开始,我就去玩游戏了,半小时后回去看结果。结果真的是否如我所想呢?这里直接给出我的测试结果:
w2.jpg
总共进行了 10 轮比赛,gemini-2.5-pro 以 10 场全胜碾压全局。部分对决场次如下(图太多就不全部贴了):
w3.jpg

w4.jpg

w5.jpg
实话说,当看到结果时,我是蒙蔽的,我以为是我的程序出 bug 了呢,毕竟这是一个心理博弈游戏,再怎么理性都应该有一些心理运气成分吧。还好,我在开发这个 PK 游戏的时候,机智地开发了日志控制台,保留了 AI 的思考过程,于是,我赶紧去查看 AI 的思考日志,来看看这些 AI 模型都是些什么心机 boy。Gemini(稳如老狗又智商高超)
w6.jpg

w7.jpg

w8.jpg

w9.jpg

Gemini展现出高度的迭代推理能力,能够进行多层次思考,并预测对手的推理深度和选择,并根据预测的对手选择值平均值计算出它本轮的选择。

GPT(过度自信的保守派)

w10.jpg
从多次的日志来看,GPT初始常常选择较高数字,可能高估了自己的预测能力或低估了对手的理性程度。但在后续轮次时却呈现了保守倾向,在调整时未展现足够冒险精神,未能有效应对快速下降的目标值。此外,GPT未能从历史数据中快速提炼趋势,导致在多场比赛中早早被淘汰。
Claude(谨慎且步步为营)

w11.jpg

w12.jpg

Claude表现出谨慎的心态,倾向于选择稳健数字以存活,并倾向于选择中等偏低的数字,避免极端值。决策基于逻辑分析,但缺乏冒险精神,未能抓住获胜机会。它能从淘汰结果中学习,但调整速度较慢,常在后期被淘汰。这也是除了 gemini 之外存活轮次最多的模型了。

DeepSeek(平衡的理性派)

w13.jpg

DeepSeek决策基于博弈论推理,倾向于选择安全值以存活,也能从历史数据中学习,但调整不够激进,难以应对Gemini的深度策略。

Doubao(快速调整的激进派)

w14.jpg

Doubao在选择时考虑对手可能的选择范围,并在比赛过程中能快速调整策略,幅度较大。能快速适应目标值下降的趋势,并在后期选择低值以避免淘汰,但未能突破至获胜位置。

Qwen(适度的理智派)

w15.jpg

Qwen 在选择时分析对手策略,调整幅度适中,能根据目标值下降调整策略,显示一定灵活性。能从历史数据中学习,但推理深度和调整速度不及Gemini。

当我看完这些模型思考的过程,真的深深明白了什么叫你以为对手在第一层,实际在大气层啊。这一次的测验证明了一点,就是在复杂的博弈环境中,理性思考、策略选择和适应性学习是成功的关键。

在看似存在不确定性的博弈中,gemini 却用数学计算分析赢下了一切。技术的表面是规则,深层是对不确定性的掌控。

思考模型证明了自己,确实逻辑推理能力要远胜以往。如果可以,应该让 o4、deepseek-r1 和 gemini-2.5-pro 来一场的。

感兴趣的朋友可以去我的项目网站试试(https://fishisnow.github.io/ai-game-theory)!
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-8 04:34 , Processed in 0.148692 second(s), 32 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表