多客科技 发表于 2025-10-28 09:36

高通推出AI200和AI250,在数据中心领域挑战AMD和英伟达

作者:微信文章
高通正式发布了两款AI推理加速器AI200和AI250,它们将分别于2026年和2027年上市。据称,这些新的加速器将与AMD和英伟达的机架式解决方案竞争,在运行大规模生成式AI工作负载时具有更高的效率和更低的运营成本。



高通AI200和AI250加速器均基于高通Hexagon神经处理单元(NPUs),这些单元是为数据中心AI工作负载定制的。近年来,高通一直在逐步改进其Hexagon NPUs,因此这些处理器的最新版本已经具备了标量、矢量和张量加速器(12+8+1 配置),支持INT2、INT4、INT8、INT16、FP8、FP16等数据格式,采用micro-tile推理以减少内存流量,支持64位内存寻址、虚拟化以及为额外安全而提供的Gen AI模型加密。

高通的AI200机架式解决方案将是其首款由AI200加速器驱动的数据中心级推理系统,该系统将配备768GB的LPDDR内存,将使用PCIe互连进行向上扩展,以及使用以太网进行向外扩展的可扩展性。该系统将采用直接液体冷却,每个机架的功率范围为160千瓦,对于推理解决方案来说,这也是一个前所未有的功耗。此外,该系统还将支持企业部署中的机密计算。该解决方案将于2026年上市。



AI250将在一年后推出,它保留了这种结构,但增加了近内存计算架构,将有效内存带宽提高了10倍以上。此外,该系统还将支持解耦推理功能,使计算和内存资源能够在卡之间动态共享。高通将其定位为一种更高效、高带宽的解决方案,针对大型Transformer模型进行了优化,同时保留了与AI200相同的热设计、冷却、安全性和可扩展性特点。

除了构建硬件平台外,高通还在构建一个超大规模级别的、针对大规模推理优化的端到端软件平台。该平台将支持主要的机器学习和生成式AI工具集,包括PyTorch、ONNX、vLLM、LangChain和CrewAI,同时实现无缝模型部署。软件堆栈将支持解耦服务、机密计算以及预训练模型的一键式注册,以简化部署。
页: [1]
查看完整版本: 高通推出AI200和AI250,在数据中心领域挑战AMD和英伟达