AI芯片设计系列三:典型AI芯片设计SoC架构
作者:微信文章以下是针对 AI 芯片中 NoC(片上网络)支持强一致性、弱一致性和非一致性协议的三类架构框图设计,结合典型场景与技术细节进行说明:
一、强一致性协议 AI 芯片架构框图
应用场景:异构多处理器(CPU+AI 核 + GPU)共享内存,需实时同步数据(如科学计算、多任务协同推理)
核心特点:全系统缓存一致性,通过强协议(MESI/ACE)确保数据实时同步
+-------------------+
| CPU集群 |
|(多Arm/X86核心) |
+----------+----------+
|MESI协议
v
+-------------------+-------------------+
| NoC |一致性控制器 |
|(2D Mesh拓扑) |(分布式状态机) |
+----------+-------------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| GPU计算单元| || AI加速器 | |
|(张量核心) | ||(3D Cube引擎) | |
+----------------+----------++----------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| L1 Cache | || L1 Cache | |
+----------------+----------++----------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| L2 Cache | || HBM存储 | |
+----------------+----------++----------------+----------+
| |
+-------------------+-------------------+
| 内存控制器 |
+-------------------+
|DDR内存
v
+-------------------+
| 外部存储 |
+-------------------+
关键组件说明
一致性控制器:分布式部署于 NoC 路由器中,通过 MESI 协议管理缓存行状态(Modified/Exclusive/Shared/Invalid),实时同步跨处理器的内存修改;NoC 拓扑:采用 2D Mesh 结构,支持全系统数据广播与失效消息传输,带宽需满足一致性消息开销(约占总带宽 20%);异构模块连接:CPU、GPU、AI 加速器通过 NoC 共享 L2 Cache 与 HBM 存储,任何模块对数据的修改会立即触发一致性协议。
二、弱一致性协议 AI 芯片架构框图
应用场景:CPU 与 AI 核松耦合协作(如训练中 CPU 负责任务调度,AI 核专注计算),仅在参数更新时同步数据
核心特点:分域一致性控制,关键数据(如模型参数)强同步,中间结果弱同步
+-------------------+
| CPU集群 |
|(强一致性域) |
+----------+----------+
|MESI协议
v
+-------------------+-------------------+
| NoC |协议转换层 |
|(混合拓扑) |(强→弱映射) |
+----------+-------------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| 强一致性域 | || 弱一致性域 | |
|(参数存储区)| ||(特征图缓存)| |
+----------------+----------++----------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| AI加速器 | || 动态调度器 | |
|(3D Cube) | ||(同步指令触发)|
+----------------+----------++----------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| 本地缓存 | || HBM存储 | |
|(弱一致性) | ||(参数区强同步) |
+----------------+----------++----------------+----------+
| |
+-------------------+-------------------+
| 内存控制器 |
+-------------------+
关键组件说明
分域一致性设计:
强一致性域:CPU 与参数存储区通过 MESI 协议强同步,确保模型权重更新的正确性;弱一致性域:AI 核的本地缓存与特征图存储采用释放一致性(Release Consistency),仅在调用同步指令(如屏障指令)时刷新缓存;
协议转换层:部署于 NoC 中,将 CPU 的强一致性请求转换为 AI 核可接受的弱一致性操作,减少无效消息传输;动态调度器:根据任务类型(训练 / 推理)动态调整一致性级别,如训练时参数更新触发强同步,推理时特征图采用弱同步。
三、非一致性协议 AI 芯片架构框图
应用场景:纯 AI 加速(如推理芯片),数据流向固定(输入→计算→输出),无需多处理器共享中间结果
核心特点:无缓存一致性机制,NoC 仅负责数据传输,架构极简
+-------------------+
| 输入接口 |
|(PCIe/SerDes) |
+----------+----------+
|
v
+-------------------+-------------------+
| NoC |数据调度器 |
|(点对点拓扑) |(静态路由) |
+----------+-------------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| AI计算单元1| || AI计算单元2| |
|(脉动阵列) | ||(张量核心) | |
+----------------+----------++----------------+----------+
| |
v v
+----------------+----------++----------------+----------+
| 本地存储1 | || 本地存储2 | |
|(输入缓冲区) | ||(输出缓冲区)| |
+----------------+----------++----------------+----------+
| |
v v
+-------------------+-------------------+
| 输出接口 | |
|(PCIe/SerDes) | |
+-------------------+-------------------+
关键组件说明
无一致性模块:架构中无缓存一致性控制器,数据按固定路径流动(输入→计算→输出),无需跨单元同步;极简 NoC 设计:采用点对点(Point-to-Point)或树状拓扑,静态路由策略(如最短路径),仅实现数据传输功能,带宽全部用于计算数据流;本地存储隔离:每个 AI 计算单元配备独立本地存储,输入数据分区处理,输出结果直接汇总至输出接口,无共享内存需求。
三类架构对比总结
一致性类型典型芯片NoC 拓扑一致性协议功耗 / 面积适用场景强一致性英伟达 A100、昇腾 910(CPU 域)2D Mesh / 混合MESI/ACE高异构多任务、实时数据共享弱一致性华为昇腾 310、部分边缘 AI 芯片混合拓扑释放一致性中训练推理混合、参数异步更新非一致性谷歌 TPU、寒武纪思元 290点对点 / 树状无低纯推理、固定数据流任务
通过框图可直观看到,一致性需求直接影响 AI 芯片的 NoC 复杂度与架构设计,强一致性需全系统互连与协议控制,而非一致性则聚焦计算效率,舍弃缓存同步机制。
页:
[1]