【AI技术解读】On-Policy Distillation:让小模型也能“精准学、低成本跑”的训练新范式
作者:微信文章最近由前OpenAI CTO Mira Murati创立的Thinking Machines又出了一篇(https://thinkingmachines.ai/blog/on-policy-distillation/) 。提出了 On-Policy Distillation。非常值得一看。
之前,他们还写过lora,看这里:LoRA Without Regret(RLHF作者出品),可以说是Thinking Machines出品,必属精品。
📌 简介:大模型“后期训练”的痛点,终于有解了!
一个能解数学题、懂医疗知识的AI大模型,训练要分三步走:
预训练:学基础能力,比如说话、认常识(像我们小学学拼音识字);中期训练:学专业技能,比如读代码、看医疗文档(类似中学学数理化);后期训练:练特定行为,比如按指令聊天、一步步解数学题(好比大学练专业实操)。
但过去的“后期训练”总有麻烦:
用「强化学习(RL)」吧,就像让学生自己做题,只知道“对/错”,却不知道错在哪一步(反馈太稀疏);用「离线蒸馏(Off-policy Distillation)」吧,又像让学生抄“学霸笔记”,但学霸的解题场景,学生根本遇不到(脱离实际)。
而「On-Policy Distillation」把两种方法的优点捏到了一起。
✨ 主要特点:这三大优势,让它脱颖而出!
1. 行业痛点:传统后训练方法的“两难困境”
后训练阶段,行业主流有两种思路,但都存在明显短板。我们以“训练小模型解数学题”为例,直观对比两者的优劣:
训练方式核心逻辑优点缺点On-policy学生模型自己“试错”(采样轨迹),最终按结果给奖励(如RL)轨迹是学生真实走过的,适配性强反馈极稀疏(仅“对/错”),无法定位中间错误Off-policy学生模仿教师模型/标注数据的输出(如SFT+蒸馏)反馈更密集、训练过程可控只学教师“常走路线”,遇新状态易出错,长任务会出现“累积错误”
对比过去的方法:
RL只会说“答案21错了”,学生还是懵,但学生下次遇到自己的错题还是不会改。
「On-Policy Distillation」的核心逻辑特别好懂:
先让“学生模型”自己做题(比如解「5+2×3」),生成完整的解题过程(哪怕错了也没关系);再让“老师模型”(性能更强的大模型)生成每个token的概率,学生,只要保证这个概率分布和老师相近即可。
2. 效率炸裂!成本直接砍到1/10
AI训练最烧钱的就是「GPU小时」,而「On-Policy Distillation」把成本压到了极致:
实验数据,在「AIME'24」数学基准测试中(类似AI的数学考试):
用RL训练,要17920 GPU小时才能到67.6%正确率;用「On-Policy Distillation」,只花1800 GPU小时,正确率就冲到74.4%——成本降了10倍,效果还更好!
更省的是数据:离线蒸馏要200万条提示才能到70%正确率,它只用7.7万条就达标,数据效率直接拉满。
3. 治好大模型的“健忘症”——学新技能不丢旧本事
大模型有个烦人的毛病:学了新东西,旧能力就忘(比如学了公司文档后,之前的聊天、指令理解能力没了,这叫「灾难性遗忘」)。
但「On-Policy Distillation」能解决这个问题:
博客里做了个实验——训练一个“公司内部助手”:
先让模型学公司文档(新知识),结果聊天能力从85%掉到79%;再用「On-Policy Distillation」微调,聊天能力恢复到83%,公司知识还从36%涨到41%——既没忘旧技能,还把新技能学更牢了。
📝 总结:AI训练“性价比之王”,未来可期!
「On-Policy Distillation」不是什么“颠覆式创新”,而是「精准解决痛点」的实用工具:
它补了RL“反馈稀”、离线蒸馏“不落地”、大模型“爱健忘”的坑,还能砍成本、省数据。
对AI从业者来说,以后不用花大价钱租GPU,小模型也能训出媲美大模型的专业能力;对行业来说,不管是做「数学推理AI」「企业内部助手」,还是「持续学习的对话机器人」,它都能帮上忙。
如果你关注AI技术落地,这个方法值得重点盯——毕竟能「降本增效」的技术,永远是行业的香饽饽~
		页: 
[1]