我爱免费 发表于 2025-11-29 04:23

智问智答 | AI 大事件——Gemini 3 发布

作者:微信文章


各位炼丹师傅大家好!

 就在上周,谷歌 CEO 劈柴哥(Sundar Pichai)亲自官宣:Gemini 3 来了, 号称是“谷歌史上最强 AI 模型”

    说实话,这两年 AI 圈卷得比咱们发顶会还激烈,几个月就有一个模型震撼首发。但今天这个发布有点不一样——谷歌这次直接屠榜,在各种 benchmark 上大幅领先同行,这个 benchmark 甚至可以包括美股股价。



01

超级大腿:你的赛博师兄/师姐

 以前你跟 AI 说”帮我改改这段论文”,它可能只会换个同义词。现在你扔给它三篇文献、一个手写笔记的扫描件,再加一段你导师的语音批评,它能瞬间 get 到你的痛点,自动生成交互式知识卡片,还能给你整出可视化图表。

 更绝的是,它在“人类最后考试”(测试通用人工智能的终极考题)中拿下了 37.5% 的分数(未使用任何工具的情况下),博士级知识测试 GPQA Diamond 得分 91.9%,均获得最高分。MathArena Apex 上更是达到了 23.4% 的 SOTA 水平。

 什么概念?相当于一个能同时精通物理、数学、代码、多语言,还能看懂你潦草手写、听得懂你的吐槽的超级大腿。而且你还可以随时抱:它不会嫌你问的问题弱智,也不会在你组会前夜 404 not found。

 不信你看,它可以编写托卡马克等离子体流动的可视化代码,同时写一首关于聚变物理的诗歌,这下“为人文赋理”具象化了。



02

码农的新外挂:Antigravity 平台

    如果说友商的模型让你一直“这个错误你上次就犯过”、“别自作聪明优化”、“还是报错”,那 Gemini 3 写的代码绝对能让你不那么一秒红温。



    谷歌还上线了一个叫 Google Antigravity 的新平台(名字就很科幻)。简单说,这就是一个 “Agent-first” 的开发环境。在 Google Antigravity 中,Agent 获得了直接访问编辑器、终端和浏览器的权限。现在,Agent 可以自主规划并执行复杂的端到端软件任务,同时自己验证自己的代码并 debug。全程你就在旁边喝咖啡,偶尔 Approve 一下。这不是科幻,这是   Gemini 3在SWE-bench Verified测试中拿下 76.2% 成绩的底气。



    这下好了,产品经理的需求,可以直接让 AI Agent 先去撕一把了。

03

想想再说:Deep Think 模式

   谷歌还在 Gemini 3 博客里藏了个尚未发布的大招:Gemini 3 Deep Think 模式。

 这玩意儿相当于给你的AI加了个涡轮增压,专门解决”让我想想”类问题。在”ARC-AGI-2”测试中,它解决了 45.1% 的全新挑战,创下新纪录。

 翻译成人类语言就是:它能处理你那些连你自己都说不清的需求。比如你可以跟它说:“我想结合我家祖传菜谱、最新的营养学研究、以及我过敏史,设计一个三个月的饮食计划,要考虑到我周末经常加班、不爱洗碗、预算有限……”

 Deep Think 不会直接猪脑过载,而是真的会把你家祖传秘方、PubMed 文献、你的 Constraints 全部消化,给你一个可执行的方案。

04

拒绝舔狗, AI 也不例外:模型安全性

   谷歌这次特别强调:Gemini 3 是有史以来最安全的模型,经历了最全面的安全评估。

 简单说就是:它不会当你的舔狗(减少谄媚,这里点名另一个 G 开头的模型),不容易被有意或者无意 PUA(抗注入攻击),也不会帮你干坏事(防止滥用)。

1

END

1

编辑 |

责任编辑 |

审核 |

融媒体中心

邹坤

吴扬

页: [1]
查看完整版本: 智问智答 | AI 大事件——Gemini 3 发布