多客科技 发表于 2025-6-3 16:48

AI 网关的前世今生

作者:微信文章
AI 网关演进路线

本文浅谈 AI 网关的演进历史,从传统代理到AI网关的技术演进,反映了互联网架构随业务需求变化的升级路径。
传统代理阶段

互联网初期通过电话线连接的网络普及,代理技术作为基础网络中转站诞生,互联网规模化初期,需解决跨域访问、基础安全与性能瓶颈。
• 访问效率与稳定性矛盾:低速网络环境下用户访问需求增长与服务器负载压力激增的矛盾。• 安全与匿名性矛盾:用户需隐藏IP突破地域限制,但早期代理安全性薄弱(如易被追踪)。

技术代表:Nginx 代理。
正向代理(Forward Proxy)


• 核心作用:代理客户端,隐藏用户身份并突破访问限制。• 解决的核心问题:
• 访问限制突破:绕过地理/IP封锁(如访问Google)。• 身份隐匿:保护客户端真实IP,防止追踪。
• 典型场景:1. 突破网络限制:在某些地区或网络环境下,用户可能无法直接访问某些网站或服务。此时,可以通过设置正向代理来突破这些限制,实现访问。2. 网络安全:通过正向代理,企业可以监控和管理员工的网络访问行为,隐藏客户端真实IP,防止敏感数据泄露。3. 内容过滤:学校、图书馆等公共场所可以通过正向代理过滤不良内容,保护用户免受不良信息的侵害。

反向代理(Reverse Proxy)


• 核心作用:代理服务器端,隐藏后端架构并优化服务。• 解决的核心问题:
• 服务器安全:隐藏真实服务器IP,抵御DDoS攻击。• 性能优化:负载均衡、静态资源缓存(如CDN边缘节点)。• 统一入口:简化客户端访问逻辑(如10086客服总机)。
• 典型场景:1. Web应用:在Web应用中,反向代理常用于实现负载均衡、安全访问控制以及缓存优化等功能。2. CDN加速:内容分发网络(CDN)通过在全球范围内部署反向代理服务器,实现内容的就近访问和加速传输

API 网关阶段

微服务架构的核心枢纽:统一管理 API 生命周期,实现流量管理、服务治理、安全防护。


核心事件

移动互联网爆发与微服务架构兴起,导致 API 数量指数级增长,移动互联网爆发催生微服务化,需高效管理海量API。
• 网络拓扑复杂度增加:微服务拆分后 API 管理碎片化,调用关系复杂,服务难统一管理。• 静态配置难适应变化:网络配置随后端服务动态变化,传统代理难实现配置动态加载。

技术代表:OpenResty、Envoy。


核心能力

• 流量管理:高级的路由策略,流量镜像、流量拆分、协议转换;• 服务治理:熔断、限流、故障转移、超时、重试、健康检查、灰度发布;• 安全防护:高级的认证、鉴权策略:API Key、IP 黑白名单、JWT、OIDC、mTLS 等

除此之外,对于平台维护者而言,值得提到的是:
• 更高级 API 模型:API 网关通常基于高级路由模型(Gateway API)实现,可以实现更高效、易扩展的 API 管理,相比传统 Ingress 模型更优雅、易维护。• 热更新插件机制:API 网关提供了易扩展的机制,方便用户自定义路由策略,如 Envoy 的 Ext-Proc、Lua、WASM、Golang、Dynamic Module 等• 丰富的可观测性:控制面、数据面在不同维度的可观测指标,可以自定义。
典型场景

• 微服务聚合:统一暴露用户/订单等模块API(如Spring Cloud Gateway)。• 开放平台对接:企业向第三方开放API(如微信支付API)。• Serverless架构:网关动态路由至云函数(如AWS Lambda)。
AI 网关阶段

大模型时代的智能调度中枢:连接 AI 模型与应用程序,提供统一、安全、高效的 AI 服务调用。


核心事件

ChatGPT等大模型技术爆发,企业级AI调用需求激增,大模型爆发导致 API 调用量指数增长,AI 时代下诞生了一些场景化的问题:
• 如何提高 TTFT(Time To First Token)并提高系统吞吐量?• 如何实现按 Token 限流(Input/Output/Total)?• 如何对接不同大模型供应商?• 如何保障大模型服务的内容安全?• 如何拥抱 AI 生态对接 MCP 服务?

技术代表:Envoy AI Gateway、Higress、Kong AI、APISIX AI。
核心能力

基于 API 网关的易扩展的特点,AI 网关可以实现如:
• AI 流量调度:LLM 感知的流量调度、基于 Prefix Cache 感知、Lora Adatper 感知、KVCache 感知、VTC 公平调度等策略,实现 TTFT 大幅降低;• AI 服务治理:基于 Input/Output Token 的多租户限流、基于优先级的推理服务自动故障转移、超时重试等;• AI 安全防护:LLM Provider 证书管理、prompt 安全校验、内容过滤等• AI 可观测性:提供细粒度的 LLM 服务访问的可观测指标;• AI 扩展插件:基于插件机制,提供用户面向 LLM 场景的插件,语义缓存、Prompt 改写等;• AI 生态交互:Protocol 转换,MCP-to-HTTP,无缝对接 MCP Client;对接多 LLM 供应商,统一 API 管理;
典型场景

• AI 推理网关:面向集群内推理服务,实现 LLM 感知的流量调度,降低 TTFT,提高系统吞吐量。• AI 代理网关:面向大模型提供商,实现多供应商的对接,实现自动 Provider 故障切换、重试、灰度发布。• MCP 网关:面向 MCP 客户端,实现 MCP 协议的转换,无缝升级后端服务,拥抱 AI 生态。

演进逻辑:早期解决“能否访问”,中期解决“如何高效管理”,当前解决“如何智能协同”。

代理技术的演进本质是 “连接效率”与“数据处理智能化”双重升级:
1. 传统代理:破除地理与安全壁垒,奠定网络互通基础;2. API网关:实现微服务标准化治理,应对移动互联网爆发;3. AI网关:成为大模型时代的“神经网络”,实现智能调度流量。
页: [1]
查看完整版本: AI 网关的前世今生