AI 风云录 2 — 中文 vs. 英文
作者:微信文章如果翻过九十年代的中国初中代数书,再去看美国的代数教材,会有一种奇妙的感觉。中文课本薄薄一本,定义、定理、例题……干净利落,像是把知识拆成了最简元的模块。而美国课本往往厚得像一本砖头,前言叙述、概念铺垫、动机展开、生活化案例,再加几页彩色插图,讲同一个“因式分解”,能绕半天,很多学生在阅读中会变得稀里糊涂。
到了大学,感觉又不同。如果你把 Ross 的《Introduction to Probability Models》和同济大学的《概率论与数理统计》放在一起看,会感到一种语言层面的反差——前者娓娓道来,像教授坐在你对面慢慢讲逻辑;后者则像把框架搭好,剩下的路得靠你自己填。有人喜欢英文教材的耐心,有人偏爱中文教材的锋利,但两者之间的落差,其实来自语言本身。
简单说:对初等数学的学习来说,中文更有优势——因为学生不需要阅读大量文字,而是直接从代数表达中学习。对以理解动机与概念为核心的大学数学来说,英文更占优势。
中文经过两千年的锤炼,像一柄旧剑,在极短篇幅里承载复杂关系;英文则像一根雕刻刀,对概念要求逐层展开,用精准叙述抵达严格逻辑。这种差异放在传统教育上还能互相欣赏,但放进 AI 的训练体系里,就开始产生微妙的后果了。
毕竟,模型之间交流的基本单位是 token。当你让 AI 表达“”,中文可能就是十二三个字,而英文要变成:
中文:三角形两边之和大于第三边。(中文14 个 token)
英文:The sum of any two sides of a triangle is greater than the length of the remaining side. (英文超过20 个)
中文:奇变偶不变,符号看象限。
英文:#@!#%¥#!%!(此处省略70+英文单词)
对用 token 来“计算语言逻辑”的机器来说,这不是小差别,而是一种结构性优势——中文表达密度更高,概念打包更紧凑,让模型以更少的 token 接触到更完整的抽象结构。
但当要求深入推理时,英文却往往提供了更清晰的拆分路径。例如在证明、动机解释、展开逻辑链条时,英文的“啰嗦”反而变成了“显式结构”,让模型更容易跟踪每一个步骤、每一个因果。
于是,各家公司在训练中开始利用不同语言的特长。
例 1:先中文再英文——先压缩结构,再补逻辑细节(以阿里通义的做法为例)
阿里在通义千问早期版本中使用了大量中文百科、教材式内容作为初轮训练材料,目的不是让模型“解释得好”,而是让它先建立基本概念的抽象框架。中文表达密度高,使得模型能在同样的计算预算中“扫过”更多概念。
随后,在推理专项强化阶段,他们加入了英文数学推理数据集(如 GSM8K、MATH),以及大量英文逻辑链条式 QA 数据,用来补齐模型在细节推理上的稳定性。
这是一种“先求快,再求细节”的路径:框架靠中文快速建立,逻辑靠英文慢慢补。
例 2:先英文再中文——先搭逻辑骨架,再训练高密度表达(以 Meta 的 LLaMA 训练策略为例)
LLaMA 系列的预训练语料英文比例很高(约七成以上),因为 Meta 的目标是构造一个推理链条清晰的基础模型,让它理解概念的展开方式、论证范式以及自然科学文献的结构。
但在微调阶段,Meta 又加入了大规模中文指令数据(来自公开开源中文指令集与社区贡献),原因很简单:中文在指令中能以更少 token 表达更多信息,使模型在有限上下文里保留更多内容。例如,一个 32k context 的对话,在中文里可以塞入更多事实与背景。
这种顺序像是:骨架用英文搭,肌肉用中文加塞更多。
例 3:混合指令微调——中英交替,用于不同目标(以微软的多语言指令集为例)
微软在对 Phi 系列和开源合作模型进行指令微调时,采用的是混合策略:
中文指令用于训练“回答效率”与“摘要能力”,因为中文信息密度更高,模型更容易学习如何在有限篇幅中完成任务。
英文指令用于训练“分步骤解释”与“可验证推理”,因为英文能自然形成 step-by-step 的结构,让模型在输出推理链条时更稳定。
多轮对话中故意穿插两种语言,以测试模型能否在“高密度表达”与“显式逻辑”之间切换。
这是一种利用语言本身“功能差异”的训练方法,而不是简单的“多语言兼容”。
语言开始不再只是符号,而是不同的“训练策略”。语言在AI的眼中纯粹成为了路径,AI在走向目的路上各取所需。
行到水穷处,坐看云起时。
When I reach the end of the stream, I sit and watch the rising clouds.
页:
[1]