2024全球AI芯片峰会主题演讲预告: 互联定义计算,AI 网络两大核心技术:RDMA和Chiplet
作者:微信文章、
(文:奇异摩尔产品及解决方案团队)
大型生成式AI为世界带来了巨大的价值且具有光明的前景,但也有很大的挑战。这些模型部署以及训练的成本正以惊人的速度激增。但AI的发展依赖于每年将参数数量、数据量和整体复杂性扩展一个数量级,这对AI服务器提出了新的需求。以下文章将从大模型的发展、对计算形态的需求等方向论述AI 智算中心的互联需求。
生成式大模型发展
现有的知名模型,如GPT、PaLM以及LLaMa等均是基于Transformer。Transformer是一种多层感知网络,通常被认为是密集矩阵模型。密集模型是全连接的,一个层中的所有“神经元”与下一层中的所有“神经元”相连接,其与卷积神经网络在结构上有很大的不同。
2020年OpenAI首次提出“规模定律”,指出模型的性能随着参数量、数据量以及训练指数增加而呈现出线性提升,并且该提升对架构和优化超参数的依赖很弱。伴随着首个千亿模型GPT-3展现出的超强性能,,在各种任务上取得的突破性进展,宣告大语言模型时代的到来。近年来,Open AI,Meta,Google,智谱以及Kimi Chat等公司开始不断发布百亿到千亿的大型语言模型。这些模型对算力和存储均提出了极大的挑战。
图:大模型关键技术与未来发展方向
大语言模型通常是通常自回归的方式产生输出序列,后序生成的词块依赖前序的所有词块,这些词块包括输入的词块以及前面已经生成的词块。因此随着输出序列的增长,推理过程的开销显著增大。为了解决上述问题,KV Cache的技术被提出,该技术通过存储和复用前序Token产生的Key值和Value值,极大减少了计算上的冗余,用存储开销换取显著的加速效果,但同时增加的存储开销和带宽需求也对AI Data Center的设计提出了挑战。
基于KV Cache技术,通常可以将大语言模型的推理过程分为Prefilling和Decoding过程。在Prefilling阶段,大语言模型计算并存储输入Token的Key和Value值,并产生输出的第一个Token;而在Decoding阶段,大语言模型利用KV Cache缓存的KV值,逐个生成输出的Token,并将生成Key和Value值存储到内存当中。因此,相比于Prefilling,Decoding需要更多的访存量。
而对于训练过程而言,需要庞大的数据集、比推理高多个数量级的存储空间、算力,以GPT3而言,使用PB级别的数据集,多次遍历数据集,训练需要的计算量约300 ZFLOPs,在1000到2000个A100 GPU上训练数个星期。相比于大模型庞大的存储和算力需求,大语言模型在实际部署应用时,我们需要着重关注其存储开销、访存开销和计算开销。
模型分配:并行处理方案
并行处理是将模型分配到多个计算卡的必要手段,现如今并行处理方案包括流水线并行、张量并行、专家并行以及数据线并行以及混合并行等策略。
在流水线并行中,模型按层拆分到了多个GPU上。在处理时,每位用户的Token将依次通过每个GPU上的每个层,直到完成整个模型的计算。这种并行模式主要优势是缓解了内存容量的压力,使得模型能够适配系统,而不是加快处理速度,也不会带来交互性的提升。
在张量并行中,每一层的计算负载通常会在隐藏维度上分配到多个GPU上,所有GPU协同处理每个层,各层的中间计算结果会通过all-reduce等操作在GPU之间进行交换,这种方式需要极高的带宽和极低的延迟。因此在Scale-up网络中,张量并行的策略受到了较好的应用。与流水线并行类似,张量并行也可以缓存内存容量的压力。
在专家并行中,不同GPU负责不同的专家模型,同时Attention模块在每个GPU上复制,由于每个专家模型需要单独加载数据,因此对每个token施加了额外的内存带宽需求,然而这种并行策略相比于张量并行几乎All reduce和All to All计算的需求。
在数据并行中,其中每个 GPU 都持有模型权重的完整副本,而每个 GPU(rank)接收不同的数据子集。这种并行方式的通信量最低,因为只需要在每个 GPU 之间对梯度进行求和(全归约)。然而,数据并行仅在每个 GPU 有足够的内存来存储整个模型的权重、激活值和优化器状态时才有效,这种方式对大模型几乎不可能。
大模型对计算卡片内/片间及集群间的互联需求
可以发现,对于现在的大模型部署,无论对于哪种策略,对计算卡来说,不仅需要高吞吐率的算力,还需要大容量的内存以缓存参数、输入数据以及中间计算结果,同时需要高带宽的接口以完成集群内以及集群间的访问。近几年的高性能GPU架构中,均使用了高带宽的HBM,同时HBM的容量以及使用数量均呈现上升趋势。为了有效管理计算卡的存储资源池并提供成本较低的存储类型如LPDDR,近年来,基于异构架构的APU方案被提出,如Nvidia的GH200以及AMD的MI300A,同时APU中的高性能CPU还有效互补运算中仅依靠GPU的效率低的部分。在这种异构架构中的CPU和GPU、GPU和GPU之间均需要极大的带宽,同时受限于光罩尺寸,基于Chiplet的架构方案和先进封装的技术成为重要的选择。
同时,受限于现在模型尺寸大小爆炸的趋势,一张计算卡当然难以完成整个模型的映射,计算卡间的互联成为重要的挑战。今天,用老黄的话来说,“一个GPU”的概念已不仅限于一个GPU,而是指代一整个Scale-up高带宽域GPU的数量集合。
近年来,高带宽域下GPU的数量呈现暴增的趋势,如NVL576。如何在Scale-up网络中提供高带宽以及高效的互联,是一个重要的挑战。当然,即使是这样的superpod GPU也难以完成像GPT-4这样的大模型的部署,GPU间的Scale-out网络效率也成为制约集群性能的重要因素。同时,现如今有多种方式可以提升大模型的尺寸随着MoE(混合专家模型)的提出而继续快速增长,Scale-out处理的数据量会越来越大。
在训练过程中,一方面,数据如梯度等需要在Scale-out网络中进行all-reduce操作;另一方面,大量的数据需要通过Scale-out网络加载到GPU上,随着多模态大模型的热门化,这种问题会更加恶化。此外,如果此时再叠加上网络流量不规则等问题,延迟问题将加剧,从而导致模型的运行速度急剧变慢。据估计,一旦发生丢包和数据重传,网络的效率将降低30%以上。
如何在Scale-out网络中提供高带宽、高可靠的互联,亦是一个重要的挑战。同时,在今天和未来很长一段时间里,Scale-up和Scale-out的拓扑以及耦合都是重要的研究课题。
“
从整个生态圈层面来看,从智算中心运营商/云厂商,大模型厂商再到服务器/交换机以及GPU厂商,行业需要一种能够完全适配,满足软硬件融合且开放的一站式解决方案来满足各层面高性能互联的苛刻需求。
奇异摩尔受邀出席2024全球AI芯片峰会(GACS 2024)并做主题分享。本届峰会由芯东西与智猩猩联合主办,截至目前已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业峰会之一。本届峰会以「智算纪元 共筑芯路」为主题,采用“主会议+技术论坛+展览展示”的全新形式。届时奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东将在9月6日下午的[数据中心AI芯片]专场为大家解读智算中心的两大核心技术趋势:RDMA & Chiplet以及奇异摩尔是如何基于Kiwi Fabric互联架构为AI网络提供全方位的互联解决方案。
GACS 2024演讲预告
演讲主题:
《互联定义计算,AI 网络两大核心技术:RDMA和Chiplet》
内容前瞻:
在人工智能飞速发展的今天,我们迎来了大模型时代。随着模型和计算规模的爆炸式增长,算力需求激增,对计算及数据中心架构提出了前所未有的挑战。传统的架构已无法满足需求,我们正从过去的小规模多用户模式,迈向大规模分布式架构。在这样的背景下,万卡乃至数十万卡集群成为了大模型训练的新基建。
在此趋势下,高性能互联技术成为了计算系统的核心。从超大规模的集群内互联,到高带宽的域内互联,再到高性能高密度的片内互联,不同层级的互联需求呼唤着最合适的解决方案。
本主题报告演讲将深入探讨AI 高性能网络的互联趋势包括RDMA及Chiplet相关技术趋势,并详细介绍奇异摩尔Kiwi Fabric互联架构如何为超大规模AI计算平台提供量身定制的高性能互联解决方案,以满足其在计算效率、扩展性和可靠性方面的需求。
扫描海报内二维码即可报名参会
关于我们
AI网络全栈式互联架构产品及解决方案提供商
奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。
奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXP、Intel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。
更多信息,关注奇异摩尔微信公众号
页:
[1]