AI云原生推理套件ServingKit发布
作者:微信文章IDC 最新发布的《中国公有云大模型服务市场格局分析,1Q25》显示,AI 应用迎来爆发式增长,有八成的企业,计划在未来18个月内引入更多生成式 AI,这对 AI 云基础设施层提出了更高的要求。
聚焦多云多模型时代下企业大规模推理应用的需求,4月17日,火山引擎发布 AI 云原生推理套件-AI Cloud Native ServingKit,帮助企业实现从模型部署到推理应用全链路的提效,以更强的推理性能、更优的推理成本、更广泛的生态增强快速构建生产可用的 AI 推理应用。
此外,AI 云原生推理套件深度适配 Dynamo、vLLM、SGLang 等主流推理引擎,吞吐性能进一步增强。
AI 云原生推理套件经历豆包大模型、火山方舟等字节跳动内外部应用的大规模 AI 业务验证,坚持“以模型为中心”的 AI 云原生理念。
本次发布的 AI 云原生推理套件,整合了 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件的强大能力,支持在大规模 GPU 集群上运行推理工作负载,表现出更强的推理性能、更优的推理成本、更广泛的生态增强。
模型部署阶段:重磅推出 Onion 镜像加速引擎。在对象存储 TOS 缓存多种开源模型和数据集,提供全平台可用下载器,支持用户快速拉取模型,DeepSeek-R1满血版可在109秒内完成模型拉取,集群内单机构建 GDKV Server,40秒完成模型缓存预热,通过 GDKV Cache,仅需13秒完成加载到多节点 GPU 显存,显著提升模型加载效率。
推理阶段:通过 GPU 算子加速器、APIG AI 网关、VKE 编排调度、KVCache 缓存服务等能力升级,来优化推理性能。通过算子优化,DeepSeek R1满血版 TPS 提升超2.4倍;智能路由提供负载感知路由和 KVCache 感知路由,使 TTFT 降低60%;EIC 在多轮次对话中,TTFT 从3s 降低到1s,长文本推理 KVCache 命中率提升了10倍以上。
运维阶段:以全链路推理观测帮助用户告别繁琐故障排查,专注 AI 业务创新。VMP 和 APM 全链路应用观测可以实现主流推理引擎的无侵入埋点,覆盖全场景模型告警,能够做到1分钟追溯告警位置,5分钟内发现故障原因,10分钟完成故障止损,使自主排查时间缩短70%,显著提升推理业务 SLO。
让我们来更直观地感受 AI 云原生推理套件的强大能力:
页:
[1]