我爱免费 发表于 2025-6-3 07:37

AI芯片设计系列三:典型AI芯片设计SoC架构

作者:微信文章


以下是针对 AI 芯片中 NoC(片上网络)支持强一致性、弱一致性和非一致性协议的三类架构框图设计,结合典型场景与技术细节进行说明:
一、强一致性协议 AI 芯片架构框图

应用场景:异构多处理器(CPU+AI 核 + GPU)共享内存,需实时同步数据(如科学计算、多任务协同推理)

核心特点:全系统缓存一致性,通过强协议(MESI/ACE)确保数据实时同步

                                  +-------------------+
                        |      CPU集群       |
                        |(多Arm/X86核心)   |
                        +----------+----------+
                                 |MESI协议
                                 v
          +-------------------+-------------------+
          |       NoC         |一致性控制器   |
          |(2D Mesh拓扑)    |(分布式状态机)   |
          +----------+-------------------+----------+
                   |                   |
                   v                   v
+----------------+----------++----------------+----------+
|    GPU计算单元|          ||    AI加速器    |          |
|(张量核心)   |          ||(3D Cube引擎) |          |
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+----------------+----------++----------------+----------+
|   L1 Cache    |          ||   L1 Cache    |          |
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+----------------+----------++----------------+----------+
|   L2 Cache    |          ||   HBM存储   |          |
+----------------+----------++----------------+----------+
          |                   |
          +-------------------+-------------------+
                        |    内存控制器       |
                        +-------------------+
                                 |DDR内存
                                 v
                        +-------------------+
                        |    外部存储       |
                        +-------------------+

关键组件说明
一致性控制器:分布式部署于 NoC 路由器中,通过 MESI 协议管理缓存行状态(Modified/Exclusive/Shared/Invalid),实时同步跨处理器的内存修改;NoC 拓扑:采用 2D Mesh 结构,支持全系统数据广播与失效消息传输,带宽需满足一致性消息开销(约占总带宽 20%);异构模块连接:CPU、GPU、AI 加速器通过 NoC 共享 L2 Cache 与 HBM 存储,任何模块对数据的修改会立即触发一致性协议。



二、弱一致性协议 AI 芯片架构框图

应用场景:CPU 与 AI 核松耦合协作(如训练中 CPU 负责任务调度,AI 核专注计算),仅在参数更新时同步数据

核心特点:分域一致性控制,关键数据(如模型参数)强同步,中间结果弱同步

                                 +-------------------+
                        |      CPU集群       |
                        |(强一致性域)   |
                        +----------+----------+
                                 |MESI协议
                                 v
          +-------------------+-------------------+
          |       NoC         |协议转换层       |
          |(混合拓扑)       |(强→弱映射)   |
          +----------+-------------------+----------+
                   |                   |
                   v                   v
+----------------+----------++----------------+----------+
|   强一致性域   |          ||   弱一致性域   |          |
|(参数存储区)|          ||(特征图缓存)|          |
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+----------------+----------++----------------+----------+
|    AI加速器   |          ||    动态调度器   |          |
|(3D Cube)      |          ||(同步指令触发)|
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+----------------+----------++----------------+----------+
|   本地缓存   |          ||   HBM存储   |          |
|(弱一致性)   |          ||(参数区强同步) |
+----------------+----------++----------------+----------+
          |                   |
          +-------------------+-------------------+
                        |    内存控制器       |
                        +-------------------+

关键组件说明

分域一致性设计:
强一致性域:CPU 与参数存储区通过 MESI 协议强同步,确保模型权重更新的正确性;弱一致性域:AI 核的本地缓存与特征图存储采用释放一致性(Release Consistency),仅在调用同步指令(如屏障指令)时刷新缓存;
协议转换层:部署于 NoC 中,将 CPU 的强一致性请求转换为 AI 核可接受的弱一致性操作,减少无效消息传输;动态调度器:根据任务类型(训练 / 推理)动态调整一致性级别,如训练时参数更新触发强同步,推理时特征图采用弱同步。



三、非一致性协议 AI 芯片架构框图

应用场景:纯 AI 加速(如推理芯片),数据流向固定(输入→计算→输出),无需多处理器共享中间结果

核心特点:无缓存一致性机制,NoC 仅负责数据传输,架构极简

                                 +-------------------+
                        |    输入接口      |
                        |(PCIe/SerDes)    |
                        +----------+----------+
                                 |
                                 v
          +-------------------+-------------------+
          |       NoC         |数据调度器       |
          |(点对点拓扑)   |(静态路由)       |
          +----------+-------------------+----------+
                   |                   |
                   v                   v
+----------------+----------++----------------+----------+
|   AI计算单元1|          ||   AI计算单元2|          |
|(脉动阵列)    |          ||(张量核心)    |          |
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+----------------+----------++----------------+----------+
|   本地存储1   |          ||   本地存储2   |          |
|(输入缓冲区)   |          ||(输出缓冲区)|          |
+----------------+----------++----------------+----------+
          |                   |
          v                   v
+-------------------+-------------------+
|      输出接口      |                   |
|(PCIe/SerDes)    |                   |
+-------------------+-------------------+

关键组件说明

无一致性模块:架构中无缓存一致性控制器,数据按固定路径流动(输入→计算→输出),无需跨单元同步;极简 NoC 设计:采用点对点(Point-to-Point)或树状拓扑,静态路由策略(如最短路径),仅实现数据传输功能,带宽全部用于计算数据流;本地存储隔离:每个 AI 计算单元配备独立本地存储,输入数据分区处理,输出结果直接汇总至输出接口,无共享内存需求。
三类架构对比总结

一致性类型典型芯片NoC 拓扑一致性协议功耗 / 面积适用场景强一致性英伟达 A100、昇腾 910(CPU 域)2D Mesh / 混合MESI/ACE高异构多任务、实时数据共享弱一致性华为昇腾 310、部分边缘 AI 芯片混合拓扑释放一致性中训练推理混合、参数异步更新非一致性谷歌 TPU、寒武纪思元 290点对点 / 树状无低纯推理、固定数据流任务

通过框图可直观看到,一致性需求直接影响 AI 芯片的 NoC 复杂度与架构设计,强一致性需全系统互连与协议控制,而非一致性则聚焦计算效率,舍弃缓存同步机制。
页: [1]
查看完整版本: AI芯片设计系列三:典型AI芯片设计SoC架构