【智问智答 | AI 大事件——Gemini 3 发布】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-11-29 04:23

智问智答 | AI 大事件——Gemini 3 发布

作者：微信文章

各位炼丹师傅大家好！

就在上周，谷歌 CEO 劈柴哥（Sundar Pichai）亲自官宣：Gemini 3 来了，号称是“谷歌史上最强 AI 模型”

说实话，这两年 AI 圈卷得比咱们发顶会还激烈，几个月就有一个模型震撼首发。但今天这个发布有点不一样——谷歌这次直接屠榜，在各种 benchmark 上大幅领先同行，这个 benchmark 甚至可以包括美股股价。

01

超级大腿：你的赛博师兄/师姐

以前你跟 AI 说”帮我改改这段论文”，它可能只会换个同义词。现在你扔给它三篇文献、一个手写笔记的扫描件，再加一段你导师的语音批评，它能瞬间 get 到你的痛点，自动生成交互式知识卡片，还能给你整出可视化图表。

更绝的是，它在“人类最后考试”（测试通用人工智能的终极考题）中拿下了 37.5% 的分数（未使用任何工具的情况下），博士级知识测试 GPQA Diamond 得分 91.9%，均获得最高分。MathArena Apex 上更是达到了 23.4% 的 SOTA 水平。

什么概念？相当于一个能同时精通物理、数学、代码、多语言，还能看懂你潦草手写、听得懂你的吐槽的超级大腿。而且你还可以随时抱：它不会嫌你问的问题弱智，也不会在你组会前夜 404 not found。

不信你看，它可以编写托卡马克等离子体流动的可视化代码，同时写一首关于聚变物理的诗歌，这下“为人文赋理”具象化了。

02

码农的新外挂：Antigravity 平台

如果说友商的模型让你一直“这个错误你上次就犯过”、“别自作聪明优化”、“还是报错”，那 Gemini 3 写的代码绝对能让你不那么一秒红温。

谷歌还上线了一个叫 Google Antigravity 的新平台（名字就很科幻）。简单说，这就是一个 “Agent-first” 的开发环境。在 Google Antigravity 中，Agent 获得了直接访问编辑器、终端和浏览器的权限。现在，Agent 可以自主规划并执行复杂的端到端软件任务，同时自己验证自己的代码并 debug。全程你就在旁边喝咖啡，偶尔 Approve 一下。这不是科幻，这是 Gemini 3在SWE-bench Verified测试中拿下 76.2% 成绩的底气。

这下好了，产品经理的需求，可以直接让 AI Agent 先去撕一把了。

03

想想再说：Deep Think 模式

谷歌还在 Gemini 3 博客里藏了个尚未发布的大招：Gemini 3 Deep Think 模式。

这玩意儿相当于给你的AI加了个涡轮增压，专门解决”让我想想”类问题。在”ARC-AGI-2”测试中，它解决了 45.1% 的全新挑战，创下新纪录。

翻译成人类语言就是：它能处理你那些连你自己都说不清的需求。比如你可以跟它说：“我想结合我家祖传菜谱、最新的营养学研究、以及我过敏史，设计一个三个月的饮食计划，要考虑到我周末经常加班、不爱洗碗、预算有限……”

Deep Think 不会直接猪脑过载，而是真的会把你家祖传秘方、PubMed 文献、你的 Constraints 全部消化，给你一个可执行的方案。

04

拒绝舔狗, AI 也不例外：模型安全性

谷歌这次特别强调：Gemini 3 是有史以来最安全的模型，经历了最全面的安全评估。

简单说就是：它不会当你的舔狗（减少谄媚，这里点名另一个 G 开头的模型），不容易被有意或者无意 PUA（抗注入攻击），也不会帮你干坏事（防止滥用）。

1

END

1

编辑 |

责任编辑 |

审核 |

融媒体中心

邹坤

吴扬

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

智问智答 | AI 大事件——Gemini 3 发布