我爱免费 发表于 2025-10-19 16:55

AI网关(AI Gateway)详解,远比你想象的要复杂

作者:微信文章
网关这个词相信大家并不陌生,简单理解就是流量的出入口。随着业务和技术的发展更替,网关也从最早期的单纯做一个反向代理的流量网关,进化到了后来更复杂的微服务网关和云原生网关,再到现在的AI网关。那今天就跟大家详细介绍下AI网关,相信远比你想象中的要复杂...AI网关概述
为什么需要AI网关?因为随着企业内部AI服务数量爆炸增长,AI调用管理正成为新的技术瓶颈。AI Gateway,本质上可以理解成是由一个传统API网关的变种(API网关功能之上叠加了AI的场景) + LLM网关,这两部分组成。在整体架构图上如下图所示:



相比于传统的API网关,AI场景下多采用SSE/WebSocket协议来保持长连接;网关除了需要处理传统的文本数据之外,多模态场景下还需处理图片、音视频等数据;不同的业务场景下,调用模型会是通用大模型+垂类模型的混合模式;并且AI场景下的数据流量将会更大,以流式传输为主,需要更大的带宽,响应时间更长(尤其推理场景下),也会更容易遭受Prompt等攻击,所以安全防护层面尤为重要......话不多说,下面针对一些网关的核心功能进行说明。注:传统网关的一些特性不过多赘述(例如路由和认证中心等部分),主要说跟AI相关的部分。
AI网关之API网关

相比于传统的API网关,AI时代下的API网关核心在于,除了要管理路由和基于Restful或gRPC协议的API外,我们还要处理以Token为核心的流量,并且大多采用流式输出方式。

规范模型API与提供MCP Server代理

由于各模型厂商API标准不同,而API网关要做的首要任务就是要屏蔽这种底层的复杂度,建立一个统一标准的API提供对外服务,背后需适配主流的模型厂商,不能把这种模型适配工作甩给模型接入的开发人员。

原有系统的一些API存量服务也是一样,之前可能是基于Restful或gRPC协议封装的,在MCP出现之后,需建立基于MCP规范的描述文件,并借助于MCP Registry注册到统一服务目录中,提供MCP Server代理。同时还需提供协议卸载能力,将SSE转换为Streamable HTTP,避免无状态应用也需使用SSE。

Token监测
在某些使用场景下,我们要有效的对每位用户使用的Token进行监控,因为大模型Token的费用是很高的,而在自建模型数据中心的场景下,某些热门时间段可能会出现Token激增致使大模型不可用的情况,所以我们有必要对于每位用户在某些时间段进行Token限流。具体流程如下图所示:


简单解释下思路:1、在Redis中,事先设置好不同用户在不同时间段内Token使用的额度。2、在使用的过程中,根据使用的Token流量,对应更新Redis即可。如果流量不够时,则用户无法访问大模型,过了该时间段后,流量额度会自动在Redis中恢复。整体思路就是用Redis进行维护。
语义缓存
可以在缓存数据库(使用Redis就行)中对用户的输入和大模型的响应进行缓存,这样就可以得到用户的历史会话信息,作为大模型的上下文使用。除此之外,在某些常用的客服问答场景中,用户提出的问题很多都是类似的,我们也可以提前对一些问题的结果进行缓存,这样就不用调用大模型回答了,节省成本。所以有效地使用缓存,对节省成本是至关重要的,因为Token实在是太贵了。具体如下图所示,列举了大模型上下文缓存的流程:



还是简单说明下:

1、首先,我们要根据不同用户,去缓存数据库中获取会话历史。

2、其次,我们拿着会话历史+当前用户输入的内容,去数据库中进行查询,如果查询到了,则证明之前已经有了相同的内容,直接返回结果即可,可以节省一次大模型的调用,并把这轮会话追加到用户历史中;否则正常调用LLM输出并缓存即可。

关于AI网关的API网关部分就说这么多,接下来我们进入到下一部分,来看看AI网关下的LLM网关。

AI网关之LLM网关

LM网关,顾名思义,是建立在LLM基础上的一层网关,用于连接应用层与模型层。它的职责与API Gateway不同,LLM Gateway关注的是模型生命周期管理与智能执行治理。

智能路由
智能路由主要根据用户的需求和服务器状态,动态的选择最优模型。所以这里要注意,不单单只是依据用户Prompt自动选择模型,还需要考虑整体GPU负载等因素。这里再详细展开说一下,智能路由的核心功能应包含以下几点:

1、将用户的意图进行解析,识别出请求类型,选择匹配一个模型或几个模型的组合。

2、需结合延迟、负载、成本等多维度进行考量。

3、在多个节点和多GPU实例间进行实时流量调度。

4、做好容灾切替,例如在主模型故障时可自动切换至备用模型,保障高可用。

模型增强
模型增强指的是可以通过融合外部知识、工具和上下文,进行原始大模型能力的扩展。这个我认为很好理解,传统的方式有外挂知识库、联网搜索、工具调用等方式。

安全治理
这部分直指模型调用全过程中应确保安全、合规、可追溯。例如要检测Prompt注入、模型内容安全审核、越狱攻击;对工具调用实行最小权限策略;支持租户、行业、区域维度的差异化安全规则;记录每次调用的Prompt、响应、模型版本、工具执行轨迹等。举个例子,下面对模型内容安全审核做详细说明。

模型内容的安全审核指的是我们需要对输入给大模型的内容和大模型输出的内容,进行安全审核,所以需建立一个模型内容安全审核机制。具体流程如下图所示:



简单解释下:

1、首先,对用户输入的内容进行安全审查,如果输入内容不符合标准,则直接返回给用户告知原因,否则正常传入给大模型。

2、其次,对模型输出内容进行安全审查,如果输出内容有问题,需要进行替换后输出。(这里的替换,可能是也是借助于模型进行替换,具体不画那么详细了)

模型监测

可以对模型调用进行实时观测与反馈分析,例如实时采集请求成功率、延迟、Token使用量、模型负载等;对模型生成内容进行自动评分。可实现对模型调用过程的全面可见与可控,也为智能路由提供实时决策信号,为企业提供成本与性能优化依据。
----AI网关现在已经成为现代AI应用中至关重要的一部分,并且随着AI技术的持续发展,在未来,AI网关也将会有越来越多的功能模块集成进去。(正文完)

更多精彩内容,欢迎扫码加入免费知识星球极客e家,共同打造极客文化,免费资料随便拿。

https://mmbiz.qpic.cn/mmbiz_png/ILd7fhGP9wVWtq5u9yEVMAFFUicGLhlZfRohTsCCfOw0MKHaChp5GPia6ibRW6TasB49QaZu0WYOfuVMRrslicrafw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&randomid=yokcqrcc&tp=webp#imgIndex=0
页: [1]
查看完整版本: AI网关(AI Gateway)详解,远比你想象的要复杂