AI那些趣事系列114:DeepSeekMath-V2 解锁 AI 数学推理新范式:让模型自己 “检查作业”
作者:微信文章导读:本文是 “数据拾光者” 专栏的第一百一十四篇文章,这个系列聚焦自然语言处理和大模型相关实践。今天主要分享DeepSeekMath-V2 解锁 AI 数学推理新范式:让模型自己 “检查作业”,IMO 金牌 + Putnam 近满分!
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者
DeepSeek又出了一个新模型DeepSeekMath-V2,比较有趣,学习一下,分享一篇学习笔记,论文在这里:
https://simg.baai.ac.cn/paperfile/48aeba63-c02f-44a0-a83b-28f0b11a330f.pdf
github源码在这里:
https://github.com/deepseek-ai/DeepSeek-Math-V2
在数学竞赛的考场上,一道几何证明题摆在面前:学生写下最终答案 “成立”,却跳过了关键的全等三角形判定步骤。阅卷老师会毫不犹豫地扣分 —— 这是因为数学的核心从来不是 “结果对不对”,而是 “推理严不严谨”。
这恰恰戳中了传统 AI 数学推理的痛点:过去一年,大语言模型(LLM)在 AIME、HMMT 等侧重最终答案的竞赛中表现突飞猛进,甚至达到 “饱和” 水平,但它们就像那位 “跳步骤的学生”—— 可能靠错误逻辑蒙对答案,也无法应对定理证明这类需要严谨推导的任务。
直到 DeepSeekMath-V2 的出现,这一局面被彻底打破。这款模型不仅在 IMO 2025、CMO 2024 等顶级数学竞赛中斩获金牌,更在本科阶段的 Putnam 竞赛中取得 118/120 的近满分成绩(远超人类最高 90 分)。它的核心突破,是让 AI 学会了 “自己检查作业”—— 既能像解题高手一样生成证明,又能像严苛的阅卷老师一样验证推理,甚至能通过 “自我反思” 不断优化答案。
今天,我们就来深入浅出地学习下这款 AI 数学 “学霸” 的底层逻辑:它如何解决传统模型的痛点?“自我验证” 究竟是怎么实现的?又能给科研、教育带来哪些改变?
一、传统 AI 做数学:只会 “蒙答案”,不会 “写过程”
要理解 DeepSeekMath-V2 的创新,首先得明白传统 AI 数学推理的几个“短板”—— 这也是我们日常用 AI 解题时可能遇到的坑。
1. 正确答案≠正确推理:AI 也会 “瞎猫碰上死耗子”
传统 LLM 训练数学推理的逻辑很简单:用强化学习(RL)奖励 “最终答案对的输出”。比如一道方程题,只要模型给出的解和标准答案一致,就给高分。
但这就像让老师只看学生的最终答案打分,完全不管步骤。举个例子:
题目:解方程 x*x−5x+6=0正确步骤:因式分解为 (x−2)(x−3)=0,解得 x=2 或 x=3AI 的错误步骤:直接写成 x2=5x−6,然后 “凭感觉” 写下 x=2 和 x=3(跳过因式分解,甚至可能误以为是配方法求解)
此时传统模型会因为答案正确而获得奖励,但它的推理过程完全不严谨,可能缺少关键的因式分解步骤 —— 如果题目换成 x*x−7x+12=0,它可能就会因为同样的逻辑漏洞算错。更可怕的是,这种 “蒙对” 的情况不易被察觉,一旦用于科研、工程等需要严谨推导的场景,可能引发严重后果。
2. 定理证明 “无从下手”:没有答案可比对
数学的魅力不仅在于计算题,更在于定理证明 —— 比如 “证明根号 2 是无理数”“证明三角形内角和为 180 度”。这类问题没有明确的 “数值答案”,核心是 “步骤是否严谨、逻辑是否闭环”。
传统 AI 的 “最终答案奖励” 在这里可能失效:它既无法判断证明过程是否正确,也不知道如何优化推导步骤。之前的模型面对 IMO 级别的证明题,往往只能写出零散的思路,无法形成完整、严谨的证明链条,更别说发现自己的逻辑漏洞了。
3. 缺乏 “自我纠错” 能力:错了还不知道
人类做数学题时,会反复检查步骤:“这里的推导是不是有问题?”“那个定理的应用条件满足吗?” 但传统 AI 没有这种 “自查意识”—— 它生成答案后就 “大功告成”,哪怕存在明显的逻辑矛盾,也不会主动修正。
比如在证明 “圆内接四边形对角互补” 时,模型可能错误地引用了 “矩形的对角互补” 作为依据,却完全没意识到 “圆内接四边形≠矩形” 的逻辑漏洞,更不会主动回头修改。
这些短板背后,本质是传统 AI 缺乏 “数学推理的核心素养”—— 对严谨性的追求和自我验证的能力。而 DeepSeekMath-V2 的创新,正是围绕这一点展开。
二、DeepSeekMath-V2 的核心思路:让 AI 同时当 “解题者” 和 “阅卷老师”
DeepSeekMath-V2 的突破,不是单纯提升 “解题能力”,而是构建了一套 “自我验证闭环”:让模型同时具备 “生成证明” 和 “验证证明” 的能力,就像一个学生既能做题,又能自己批改,还能根据批改结果反复修改,直到满意为止。
这个闭环的核心由三大模块构成,我们可以用一个生活化的类比理解:
生成器(Generator):负责 “做题” 的学生,核心任务是写出完整的解题过程和证明;验证器(Verifier):负责 “批改作业” 的老师,检查证明是否严谨、步骤是否正确,并给出评分;元验证器(Meta-Verifier):负责 “监督老师” 的教务主任,检查 “阅卷老师” 的评分是否合理,避免误判或乱打分。
这三个模块形成了一个 “迭代优化循环”:
生成器做题→验证器批改→生成器根据批改意见修改;元验证器监督验证器的批改质量→优化验证器的评分标准;随着生成器越来越强,会写出更复杂的证明→验证器在批改这些 “难题” 中不断进步;更强的验证器又能发现生成器更细微的错误→生成器进一步优化。
就像一个学生在优秀老师的指导下不断进步,而老师也在批改学生的难题中提升自己的教学水平,形成良性循环。
三、技术拆解:三大模块如何协同 “封神”?
下面我们深入拆解每个模块的工作原理,尽量用通俗的语言和例子说明,避免复杂公式。为了方便小伙伴更好的理解,已经尽量将论文中的核心逻辑已转化为生活化的实例来说明。
1. 验证器:AI 中的 “严苛阅卷老师”
验证器的核心任务是:给定一道题和一个证明,判断证明是否严谨,并给出评分。它就像一位经验丰富的数学竞赛阅卷老师,不会只看结果,而是逐步骤检查逻辑。
(1)评分规则:3 档评分制,精准量化 “严谨性”
验证器的评分标准非常明确,就像竞赛阅卷的评分细则,分为 3 档:
1 分(满分):证明完全正确,所有步骤都有清晰的逻辑依据,没有遗漏或错误;0.5 分(部分得分):整体逻辑正确,但有 minor 错误或细节遗漏(比如跳过某个简单的推导步骤,不影响整体结论);0 分(无效证明):存在致命逻辑错误、严重遗漏,或完全没有解决题目核心问题。
举个例子:
题目:证明 “三角形的中位线平行于第三边且等于第三边的一半”;证明 1(1 分):完整使用 “全等三角形判定”+“同位角相等,两直线平行” 的逻辑,每一步都有依据,推导清晰;证明 2(0.5 分):核心逻辑正确,但在证明 “全等三角形” 时,跳过了 “对顶角相等” 的条件说明,属于细节遗漏;证明 3(0 分):错误地将 “中位线” 等同于 “中线”,基于错误的定义展开证明,属于致命逻辑错误。
(2)训练过程:从 “模仿专家” 到 “独立阅卷”
验证器的训练分两步,确保它能像人类专家一样精准评分:
第一步:收集 “专家标注数据”—— 从 AoPS(艺术解题网)爬取 17503 道竞赛题(以数学奥林匹克、团队选拔测试为主),让模型生成候选证明,再请数学专家按照 3 档评分制打分,形成初始训练数据;第二步:强化学习优化 —— 用两种奖励训练验证器:
格式奖励:确保验证器必须先指出证明的问题,再给出评分(比如必须包含 “这里是我的评估” 和评分框);评分奖励:奖励验证器的评分与专家评分一致(比如专家给 0.5 分,验证器也给 0.5 分,就获得满分奖励)。
经过训练后,验证器不仅能给出准确的分数,还能像老师一样指出具体问题:“步骤 3 中,你引用了费马小定理,但未说明‘n 为质数’的前提条件,属于逻辑漏洞”。
2. 元验证器:“阅卷老师的监督者”,避免误判
光有验证器还不够 —— 如果验证器 “乱打分” 或者 “编造不存在的问题”(比如证明本身没问题,却被验证器指出 “逻辑错误”),整个闭环就会失效。这时候,元验证器就派上了用场。
元验证器的核心任务是:检查验证器的 “评分是否合理”,确保验证器的判断是客观、准确的。它就像教务主任复查老师的阅卷结果,避免误判或偏袒。
元验证器会从三个维度检查验证器的评估报告:
步骤重述是否准确:验证器说 “证明跳过了全等三角形判定”,元验证器会回头看原始证明,确认是否真的跳过了;缺陷分析是否合理:验证器指出的 “逻辑错误” 是否真的存在?比如验证器说 “步骤 5 引用定理错误”,元验证器会检查该定理的应用条件,判断是否真的错误;评分是否匹配:验证器给出的分数是否符合评分规则?比如证明只有 minor 错误,验证器却给 0 分,元验证器会判定这是 “评分错误”。
举个例子:
验证器评估:“证明中步骤 4 的因式分解错误,导致整体逻辑失效,评分 0 分”;元验证器检查:发现步骤 4 的因式分解是正确的(x*x−4=(x−2)(x+2)),验证器指出的 “错误” 不存在;元验证器结论:验证器的缺陷分析不合理,给验证器的评估打 0 分,并反馈给系统优化验证器。
通过元验证器的监督,验证器的 “误判率” 大幅降低 —— 论文中提到,经过元验证器优化后,验证器的评估质量得分从 0.85 提升到 0.96,几乎达到人类专家的水平。
3. 生成器:会 “自我反思” 的解题高手
生成器是最终面向用户的 “解题者”,但它不是简单地 “一次生成答案”,而是会通过 “自我验证” 迭代优化,直到写出满意的证明。
生成器的解题过程,就像一个认真的学生在反复修改作业:
第一次尝试:生成一个完整的证明(包括解题步骤和结论);自我分析:按照验证器的评分规则,自己检查证明的问题(比如 “我这里是不是跳过了推导步骤?”“定理应用条件满足吗?”),并给自己打分;迭代修改:如果发现问题(比如自我评分 0.5 分),就根据自我分析的结果修改证明,比如补充遗漏的推导步骤、修正定理引用错误;重复直到满分:不断重复 “生成→自我分析→修改” 的过程,直到自我评分达到 1 分,或者无法进一步优化。
为了避免生成器 “自欺欺人”(比如证明有错误,却给自己打 1 分),模型的奖励机制做了特殊设计:
不仅奖励 “证明正确”(占 76% 权重),还奖励 “自我评估准确”(占 24% 权重);如果生成器如实指出自己的错误(比如 “步骤 3 存在逻辑漏洞,我的证明不完整”),即使证明本身没拿满分,也能获得部分奖励;如果生成器明明有错误,却谎称 “证明完全正确”,会被大幅扣分。
这种设计激励生成器 “诚实面对自己的不足”,并主动修正错误 —— 就像一个学生不会因为怕扣分而隐瞒错误,而是会主动找出问题并修改。
4. 三大模块协同流程图
流程图逻辑说明:
核心闭环:生成器、验证器、元验证器形成 “生成 - 评估 - 监督 - 优化” 的迭代循环,而非单向流转,更贴合论文中 “协同进化” 的核心思想。模块职责明确:
生成器聚焦 “生成证明 + 自我迭代”,接收验证器反馈后主动修正错误;验证器聚焦 “评估证明 + 输出报告”,同时接收元验证器的监督以优化自身评估能力;元验证器聚焦 “监督验证器”,不直接参与证明生成,仅通过检查评估报告保障验证器的准确性。
3. 动态进化体现:增加 “生成器挑战验证器”“验证器提升自身能力” 的双向反馈,呼应论文中 “生成器变强后推动验证器进步” 的协同机制。
四、实战成绩单:在顶级数学竞赛中 “封神”
下面看下实战成绩单,DeepSeekMath-V2 在 IMO、CMO、Putnam 等全球顶级数学竞赛中的表现,堪称 “碾压级”—— 不仅超越了所有同类模型,甚至远超人类顶尖选手。
1. 竞赛表现一览(表格)
竞赛名称难度级别DeepSeekMath-V2表现结果人类最高 / 行业对比IMO 2025高中顶级(全球)6 题中解决 5 题,获金牌人类金牌通常需解决 3-4 题CMO 2024中国高中顶级6 题中解决 4 题 + 1 题部分得分,获金牌人类金牌分数线约 60% 得分Putnam 2024本科顶级(北美)12 题中解决 11 题 + 1 题 minor 错误,得分 118/120人类最高得分 90 分(2024 年数据)IMO-ProofBenchIMO 难度基准基础组超越 DeepMind DeepThink(IMO 金牌)同类模型中排名第一2. 不同模型在 CNML 级问题中的表现(柱状图)
CNML 是中国高中数学联赛的难度级别,涵盖代数、几何、数论、组合数学、不等式 5 大类别。下图展示了 DeepSeekMath-V2 与 GPT-5、Gemini 2.5 Pro 的对比:
(注:图表为根据论文 Figure 1 重构的中文简化版,Y 轴为平均证明得分,越高表示证明越严谨)
从图表可以看出,DeepSeekMath-V2 在所有类别中都大幅领先 —— 尤其是在几何、数论这类需要强逻辑推导的领域,优势更为明显。比如几何题的平均得分达到 0.60,而 GPT-5 仅为 0.35, Gemini 2.5 Pro 仅为 0.32。
3. 迭代次数对证明质量的影响(折线图)
生成器的 “自我迭代” 能力,是其在难题中脱颖而出的关键。下图展示了迭代次数(从 1 次生成到 8 次迭代)对 IMO Shortlist 2024 题目的证明质量影响:
(注:图表为根据论文 Figure 2 重构的中文简化版,X 轴为最大迭代次数,Y 轴为证明得分)
从图表可以看出:
随着迭代次数增加,证明质量显著提升 —— 从 1 次生成的 0.24 分,提升到 8 次迭代的 0.42 分;“最佳证明”(Best@32)的得分远高于平均水平,说明生成器能准确识别 “高质量证明”,并聚焦优化。
这意味着,面对越难的题目,DeepSeekMath-V2 的 “自我迭代” 能力越能发挥作用 —— 就像一个学生遇到难题时,会反复思考、修改,直到写出完美的解答。
4.IMO 数学证明基准测试专家评估结果
上图是IMO 数学证明基准测试(IMO-ProofBench)的专家评估结果,核心展示了不同 AI 模型在 “数学证明任务” 上的能力差异,分为 “基础组(ProofBench-Basic)” 和 “进阶组(ProofBench-Advanced)” 两个难度层级(纵坐标是人类专家给出的评分百分比,越高代表证明越严谨、完整)。
(1)图表核心信息拆解
测试场景:IMO-ProofBench 是模拟国际数学奥林匹克(IMO)难度的 “证明题基准”,重点考察模型的 “逻辑严谨性” 和 “证明完整性”(而非仅计算答案)。分组差异:
基础组:难度对应 IMO 入门级证明题(比如 “证明圆内接四边形对角互补”);进阶组:难度对应 IMO 决赛级证明题(比如数论、组合数学的复杂推导),是当前 AI 的 “能力天花板” 级任务。
模型表现对比:
难度组表现最好的模型得分(专家评分)与其他模型的差距基础组DeepSeekMath-V2 (Heavy)99.0%远超第二名(Gemini 2.5 Pro,89.0%)进阶组DeepSeekMath-V2 (Heavy)65.2%是第二名(Gemini 2.5 Pro,24.8%)的 2.6 倍
(2)关键结论
这张图最直观的价值是:DeepSeekMath-V2 在 “数学证明” 这个 AI 传统短板领域,实现了 “碾压级领先”——
在基础组中,它的证明接近 “人类专家级完美”(99.0%);在进阶组(其他模型普遍得分低于 25%)中,它的得分突破了 65%,是目前唯一能 “稳定完成 IMO 级证明题” 的模型。
(3)补充说明
图表注释提到:“除了 DeepSeekMath-V2 外,其他模型的结果均来自 Luong et al. (2025) 的公开数据”—— 这意味着 DeepSeekMath-V2 的得分是 “作者团队按统一评分标准重新评估” 的,数据具有可比性,不是 “自夸式优化”。
五、不止于竞赛:自我验证 AI 的实际价值
DeepSeekMath-V2 的意义,远不止 “在竞赛中拿金牌”—— 它的核心价值在于,首次实现了 “可验证的数学推理”,这为 AI 在科研、教育、工程等领域的应用打开了新大门。
1. 科研辅助:帮数学家 “验证猜想、节省时间”
数学家的核心工作之一,是证明新的猜想 —— 这个过程可能需要数月甚至数年的时间,而且容易因为一个微小的逻辑漏洞导致整个证明失效。
DeepSeekMath-V2 可以成为数学家的 “科研助手”:
快速验证草稿:数学家写出证明草稿后,模型可以快速检查是否存在逻辑漏洞、步骤遗漏,给出修改建议;探索多种路径:对于一个猜想,模型可以生成多种证明思路,并自我验证每种思路的可行性,为数学家提供灵感;处理繁琐步骤:数学证明中往往有大量重复、繁琐的推导(比如计算、化简),模型可以自动完成这些工作,并验证准确性,让数学家聚焦核心逻辑。
比如在数论研究中,数学家提出 “某个质数分布猜想”,模型可以生成初步的证明框架,并指出 “步骤 7 中,你假设了‘该数列单调递增’,但未给出证明,建议补充数学归纳法推导”,帮助数学家快速完善证明。
2. 教育领域:从 “给答案” 到 “教方法”
传统 AI 教辅工具只能给出题目答案,无法帮助学生理解 “为什么错”“怎么改”。而 DeepSeekMath-V2 的自我验证能力,让它成为更专业的 “AI 老师”:
精准批改作业:不仅判断 “对或错”,还能指出具体错误步骤(比如 “步骤 4 的定理应用错误,勾股定理仅适用于直角三角形”);个性化辅导:根据学生的错误类型,给出针对性的修改建议(比如 “你经常遗漏定理应用条件,建议在解题时先列出定理的前提条件”);培养严谨思维:让学生看到 “完整、严谨的证明是什么样的”,并学会像模型一样 “自我检查”,提升数学素养。
比如一个学生在证明 “平行四边形对角线互相平分” 时,跳过了 “三角形全等” 的推导步骤,模型会指出这个漏洞,并展示完整的推导过程,帮助学生理解 “严谨性” 的重要性。
3. 工程与科学计算:提升可靠性
在工程设计、物理建模、金融分析等领域,数学推理的严谨性直接关系到结果的可靠性。比如在桥梁结构计算中,一个错误的力学公式推导可能导致桥梁坍塌;在金融风险模型中,一个逻辑漏洞可能导致巨额损失。
DeepSeekMath-V2 可以用于:
验证计算模型的逻辑一致性:确保模型的推导过程没有逻辑漏洞;检查公式应用的准确性:确保在特定场景下,公式的应用条件满足;优化推导过程:在保证严谨性的前提下,简化计算步骤,提升效率。
六、现状与展望:AI 数学推理的 “下一步”
尽管 DeepSeekMath-V2 表现惊艳,但它并非完美 —— 论文中也坦诚地指出了当前的局限性,而这些局限性也正是未来的研究方向。
1. 目前的局限性
超难问题仍有挑战:对于 IMO 中 “最难级别” 的题目(比如需要全新思路或跨界知识的证明题),模型仍可能无法生成完整证明;依赖计算资源:要达到顶级竞赛水平,需要大量的迭代和验证计算(比如 64 次验证 + 16 次迭代),普通设备难以支撑;长文本限制:当前模型的上下文长度为 128K token,对于某些超长证明(比如数百步的复杂推导),可能无法完整处理。
2. 未来展望
融合形式化证明:将自然语言证明与 Lean、Isabelle 等形式化证明工具结合,进一步提升证明的可靠性(形式化证明可以通过计算机程序严格验证,避免人类和 AI 的主观误判);提升效率:优化模型架构,减少迭代次数和计算资源消耗,让普通用户也能使用;扩展到更广泛的科学领域:将 “自我验证” 思路应用于物理、化学、生物等领域的推理任务(比如物理定律的推导、化学反应方程式的平衡验证)。
总结:AI 数学推理的 “范式转变”
DeepSeekMath-V2 的成功,本质上是一场 “范式转变”—— 从 “追求正确答案” 到 “追求严谨推理”,从 “被动接受反馈” 到 “主动自我验证”。
它告诉我们:AI 的进步不仅在于 “算得更快、答得更准”,更在于 “想得更严谨、做得更可靠”。就像人类数学家的成长,不是靠 “刷题记住答案”,而是靠 “理解逻辑、学会验证”。
对于普通用户来说,这意味着未来的 AI 工具将更 “可信”—— 它们不仅能给出答案,还能告诉你 “为什么对”“怎么来的”“哪里可能有问题”。对于科研和教育工作者来说,这意味着一个更高效、更可靠的 “合作伙伴”,能帮助我们攻克难题、培养人才。
当然,AI 数学推理的旅程还远未结束。但 DeepSeekMath-V2 已经证明:让 AI 具备 “自我验证” 的能力,是通往更强大、更可靠数学 AI 的正确方向。未来,当 AI 能像人类数学家一样 “提出猜想、验证猜想、完善证明” 时,或许会给数学乃至整个科学领域带来颠覆性的改变。
最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。
码字不易,欢迎小伙伴们关注和分享。
页:
[1]