我爱免费 发表于 2025-10-28 19:30

高通发布AI200/AI250加速器,瞄准数据中心AI推理市场

作者:微信文章
点击上方蓝字【聚大模型前言】关注我,热门AI资讯每天更新~~



导读:高通正式发布了面向数据中心的AI推理加速器:AI200和AI250,预计将分别在2026年和2027年上市。两款新品不仅在算力和效率上直指AMD与英伟达的机架级方案,还引入了液冷、高带宽和安全计算等技术,为大规模生成式AI推理提供新选择。

高通官方表示,这两款产品将面向大规模生成式AI负载,主打高效率、低运营成本,同时延续高通每年更新产品的节奏。两款加速器均基于高通Hexagon神经处理单元(NPU)打造,经特殊优化以适应数据中心AI工作负载。



最新Hexagon NPU已经集成标量、向量和张量加速单元(12+8+1配置),支持多种数据格式(INT2、INT4、INT8、INT16、FP8、FP16),具备微块推理以减少内存流量、64位内存寻址、虚拟化以及生成式AI模型加密功能。

AI200是高通首款机架级推理系统,单机配备768GB LPDDR内存,通过PCIe实现扩展、以太网支持横向扩展。系统采用直液冷设计,整机功耗达160千瓦/机架,在推理方案中十分罕见。此外,AI200支持企业级机密计算,保障数据安全,预计2026年上市。

AI250将于AI200之后一年发布,结构沿用AI200,但加入近内存计算架构,有效内存带宽提升10倍以上。同时,它支持分离式推理,计算和内存资源可以在不同加速卡间动态共享。高通将其定位为更高效、带宽更大的方案,专为大规模Transformer模型优化,同时保持与AI200相同的散热、冷却、安全和扩展特性。

高通技术规划与数据中心业务高级副总裁杜尔加·马拉迪(Durga Malladi)表示:“AI200和AI250重新定义了机架级AI推理的可能性,让客户在前所未有的总拥有成本下部署生成式AI,同时保持现代数据中心所需的灵活性和安全性。”

除了硬件,高通还在构建面向大规模推理的端到端软件平台,支持PyTorch、ONNX、vLLM、LangChain和CrewAI等主流工具,同时提供分离式服务、机密计算和预训练模型一键部署功能。马拉迪补充:“丰富的软件栈和开放生态让开发者和企业更轻松管理、扩展和部署已训练AI模型,实现快速创新。”

值得注意的是,高通并未透露AI200/AI250将搭载哪类CPU。高通今年早些时候才开始开发自研数据中心级CPU,预计最早要到2028年才能量产。短期内,AI200预计将使用现成的Arm或x86 CPU,具体型号尚未公开。

参考资料:https://www.qualcomm.com/news/releases/2025/10/qualcomm-unveils-ai200-and-ai250-redefining-rack-scale-data-cent;
页: [1]
查看完整版本: 高通发布AI200/AI250加速器,瞄准数据中心AI推理市场