AI:语言模型的技术演变
作者:微信文章(接前十九条)
浙江大学DS系列专题——大语言模型溯源
语言模型的技术演化:
One-hot 编码:高维稀疏(维度=词表大小),无法表达语义关联
Word Embedding 词嵌入编码:低维稠密向量(如20维可表示数百万词)
N-gram(基于词频概率,1970s)统计方法
LSTM/GRU(序列建模,2000s)神经网络
Encoder-Decoder 深度学习模型框架,可用于解决Seq2Seq 问题
Transformer(自注意力机制:并行计算 + 全局语义捕捉、前馈网络/位置编码/层归一化,2017)
BERT (Encoder) / GPT-1 (Decoder) 双向上下文 vs 生成能力(2018 )
GPT-3 (175B参数) 涌现能力、上下文学习(2020)
ChatGPT (GPT-3.5 + RLHF)指令对齐、拒绝不当问题——人工智能的IPHONE时刻(2022)
GPT-4 (多模态)图像/文本融合、逻辑推理跃升(2023)
GPT-4o (全模态交互)实时响应、多语言优化(2024)
DeepSeek-V3 开源-混合专家MoE模型,效率突破(2024)
DeepSeek-V3 Base 基础生成能力,MoE架构 + 工程优化
DeepSeek-R1 强化推理能力(2025)专注复杂逻辑(数学/编程),抗“越狱”能力增强
DeepSeek-R1-Zero 冷启动推理能力 GRPO强化学习(规则奖励)
DeepSeek-R1-Distill 小模型蒸馏 迁移R1能力至轻量模型(如7B)
DeepSeek-R1-0528 在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro
评:
从语言模型的技术演变,我们可以看到,AI技术不是凭空来的,是经过了很多年的探索、摸索,直到Transformer(自注意力机制:并行计算 + 全局语义捕捉、前馈网络/位置编码/层归一化,2017)才开启了AI技术的跳跃式发展
ima知识库:
页:
[1]