【AI 网关的前世今生】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-6-3 16:48

AI 网关的前世今生

作者：微信文章
AI 网关演进路线

本文浅谈 AI 网关的演进历史，从传统代理到AI网关的技术演进，反映了互联网架构随业务需求变化的升级路径。
传统代理阶段

互联网初期通过电话线连接的网络普及，代理技术作为基础网络中转站诞生，互联网规模化初期，需解决跨域访问、基础安全与性能瓶颈。
• 访问效率与稳定性矛盾：低速网络环境下用户访问需求增长与服务器负载压力激增的矛盾。• 安全与匿名性矛盾：用户需隐藏IP突破地域限制，但早期代理安全性薄弱（如易被追踪）。

技术代表：Nginx 代理。
正向代理（Forward Proxy)

• 核心作用：代理客户端，隐藏用户身份并突破访问限制。• 解决的核心问题：
• 访问限制突破：绕过地理/IP封锁（如访问Google）。• 身份隐匿：保护客户端真实IP，防止追踪。
• 典型场景：1. 突破网络限制：在某些地区或网络环境下，用户可能无法直接访问某些网站或服务。此时，可以通过设置正向代理来突破这些限制，实现访问。2. 网络安全：通过正向代理，企业可以监控和管理员工的网络访问行为，隐藏客户端真实IP，防止敏感数据泄露。3. 内容过滤：学校、图书馆等公共场所可以通过正向代理过滤不良内容，保护用户免受不良信息的侵害。

反向代理（Reverse Proxy）

• 核心作用：代理服务器端，隐藏后端架构并优化服务。• 解决的核心问题：
• 服务器安全：隐藏真实服务器IP，抵御DDoS攻击。• 性能优化：负载均衡、静态资源缓存（如CDN边缘节点）。• 统一入口：简化客户端访问逻辑（如10086客服总机）。
• 典型场景：1. Web应用：在Web应用中，反向代理常用于实现负载均衡、安全访问控制以及缓存优化等功能。2. CDN加速：内容分发网络（CDN）通过在全球范围内部署反向代理服务器，实现内容的就近访问和加速传输

API 网关阶段

微服务架构的核心枢纽：统一管理 API 生命周期，实现流量管理、服务治理、安全防护。

核心事件

移动互联网爆发与微服务架构兴起，导致 API 数量指数级增长，移动互联网爆发催生微服务化，需高效管理海量API。
• 网络拓扑复杂度增加：微服务拆分后 API 管理碎片化，调用关系复杂，服务难统一管理。• 静态配置难适应变化：网络配置随后端服务动态变化，传统代理难实现配置动态加载。

技术代表：OpenResty、Envoy。

核心能力

• 流量管理：高级的路由策略，流量镜像、流量拆分、协议转换；• 服务治理：熔断、限流、故障转移、超时、重试、健康检查、灰度发布；• 安全防护：高级的认证、鉴权策略：API Key、IP 黑白名单、JWT、OIDC、mTLS 等

除此之外，对于平台维护者而言，值得提到的是：
• 更高级 API 模型：API 网关通常基于高级路由模型（Gateway API）实现，可以实现更高效、易扩展的 API 管理，相比传统 Ingress 模型更优雅、易维护。• 热更新插件机制：API 网关提供了易扩展的机制，方便用户自定义路由策略，如 Envoy 的 Ext-Proc、Lua、WASM、Golang、Dynamic Module 等• 丰富的可观测性：控制面、数据面在不同维度的可观测指标，可以自定义。
典型场景

• 微服务聚合：统一暴露用户/订单等模块API（如Spring Cloud Gateway）。• 开放平台对接：企业向第三方开放API（如微信支付API）。• Serverless架构：网关动态路由至云函数（如AWS Lambda）。
AI 网关阶段

大模型时代的智能调度中枢：连接 AI 模型与应用程序，提供统一、安全、高效的 AI 服务调用。

核心事件

ChatGPT等大模型技术爆发，企业级AI调用需求激增，大模型爆发导致 API 调用量指数增长，AI 时代下诞生了一些场景化的问题：
• 如何提高 TTFT（Time To First Token）并提高系统吞吐量？• 如何实现按 Token 限流（Input/Output/Total）？• 如何对接不同大模型供应商？• 如何保障大模型服务的内容安全？• 如何拥抱 AI 生态对接 MCP 服务？

技术代表：Envoy AI Gateway、Higress、Kong AI、APISIX AI。
核心能力

基于 API 网关的易扩展的特点，AI 网关可以实现如：
• AI 流量调度：LLM 感知的流量调度、基于 Prefix Cache 感知、Lora Adatper 感知、KVCache 感知、VTC 公平调度等策略，实现 TTFT 大幅降低；• AI 服务治理：基于 Input/Output Token 的多租户限流、基于优先级的推理服务自动故障转移、超时重试等；• AI 安全防护：LLM Provider 证书管理、prompt 安全校验、内容过滤等• AI 可观测性：提供细粒度的 LLM 服务访问的可观测指标；• AI 扩展插件：基于插件机制，提供用户面向 LLM 场景的插件，语义缓存、Prompt 改写等；• AI 生态交互：Protocol 转换，MCP-to-HTTP，无缝对接 MCP Client；对接多 LLM 供应商，统一 API 管理；
典型场景

• AI 推理网关：面向集群内推理服务，实现 LLM 感知的流量调度，降低 TTFT，提高系统吞吐量。• AI 代理网关：面向大模型提供商，实现多供应商的对接，实现自动 Provider 故障切换、重试、灰度发布。• MCP 网关：面向 MCP 客户端，实现 MCP 协议的转换，无缝升级后端服务，拥抱 AI 生态。

演进逻辑：早期解决“能否访问”，中期解决“如何高效管理”，当前解决“如何智能协同”。

代理技术的演进本质是 “连接效率”与“数据处理智能化”双重升级：
1. 传统代理：破除地理与安全壁垒，奠定网络互通基础；2. API网关：实现微服务标准化治理，应对移动互联网爆发；3. AI网关：成为大模型时代的“神经网络”，实现智能调度流量。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 网关的前世今生