Agent时代的数据中心与广域网基础设施演进

2026-04-02 约20分钟阅读 AI Agent · 数据中心 · 广域网 · 基础设施

点击播放，为您朗读文章

一、引言：从训练到推理，从对话到行动
二、数据中心：Agent时代的五大变革
2.1 供电：从MW到GW的跨越
2.2 制冷：液冷成为必选项
2.3 网络架构：InfiniBand与RoCE的博弈
2.4 存储：向量数据库与知识库
2.5 边缘数据中心崛起
三、广域网：Agent流量重塑网络架构
3.1 Agent流量的独特特征
3.2 骨干网：东西向流量激增
3.3 边缘网络：低延迟推理的需求
3.4 安全：Agent流量的信任挑战
四、运营商的机会与挑战
五、未来展望

一、引言：从训练到推理，从对话到行动

2025-2026年，AI行业正在经历一个根本性的转变：从大模型训练到智能体（Agent）规模化部署。如果说大模型训练是"建工厂"，那Agent部署就是"开分厂"——而且是在全球各地同时开。

ChatGPT时代，AI基础设施的需求主要集中在少数超大规模数据中心：几千张GPU集中训练、大规模KV Cache推理集群。但Agent时代不同——一个Agent不仅需要调用LLM，还需要访问数据库、调用API、执行代码、处理文件，这些操作分布在不同的物理位置。

大模型训练时代

集中在少数超大规模集群
南北向流量为主（用户→模型）
训练为主，推理为辅
网络需求：大带宽、低延迟集群互联
典型规模：单集群万卡级别

Agent部署时代

分布式部署，靠近数据源和用户
东西向流量激增（Agent→多服务）
推理为主，多轮长上下文
网络需求：低延迟、高可靠、安全
典型规模：全球数千个小集群

这个转变对数据中心和广域网基础设施的影响是深远的，本文从两个维度进行系统分析。

二、数据中心：Agent时代的五大变革

2.1 供电：从MW到GW的跨越

AI数据中心的用电需求已经到了令人瞠目的程度。英伟达GB200 NVL72单机架功耗约120kW，传统数据中心机柜仅8-12kW，是10-15倍的跳跃。

15-25GW

2026年全球AI数据中心预计用电量

120kW

GB200 NVL72单机柜功耗

AI占全球电力消耗比例（2026）

Agent时代的推理负载是"永远在线"的。不像训练可以错峰调度，Agent需要7×24小时响应请求。这意味着：

电网容量：单个AI园区从100MW向1GW演进，对当地电网是巨大压力
备用电源：柴油发电机+UPS的组合面临环保法规限制，氢燃料电池和储能电池开始进入数据中心
核电复兴：微软与Helion签约购买核聚变电力，Google投资小型模块化反应堆（SMR），核能正成为科技巨头的"新石油"

关键洞察

Agent推理的持续性和分布性，使得"电力即算力"不再是一句口号。选址逻辑从"靠近用户"变成了"靠近便宜且充足的电力"——这就是为什么超大规模数据中心正在涌向美国中西部、中东、北欧和东南亚。

2.2 制冷：液冷成为必选项

传统风冷在40kW/柜以上就开始力不从心，而AI机柜动辄100kW+。液冷从"可选项"变成了"必选项"。

冷板式液冷是目前的主流方案（占2025年新建AI数据中心70%+），通过铜冷板贴在GPU/CPU表面导热。优点是改造方便、技术成熟；缺点是只能带走芯片热量的60-70%，其余仍需风冷辅助。

浸没式液冷是更激进的方案——整个服务器泡在介电液体中。散热效率极高，PUE可降到1.05以下。但运维复杂度高，且液体成本和环保处理是挑战。目前主要用在超算领域，但正在向AI数据中心渗透。

Agent时代的新需求：推理集群的功耗密度虽然低于训练集群，但部署规模远大于训练。大量中小型Agent推理节点（几十到几百卡）也需要高效制冷，这推动了标准化液冷机柜的快速发展。

2.3 网络架构：InfiniBand与RoCE的博弈

数据中心内部网络是AI性能的命脉。训练集群需要极高的集合通信带宽，InfiniBand长期占据主导。但Agent推理场景的需求不同：

维度	训练集群	Agent推理集群
通信模式	All-to-All集合通信	请求-响应为主，偶发集合
带宽需求	极高（400G→800G→1.6T）	中高（200G→400G足够）
延迟敏感度	中（batch并行容忍延迟）	极高（首token延迟关键）
网络技术	InfiniBand为主	RoCE v2为主，以太网回归
典型规模	万卡级，单一网络域	千卡级，多网络域互联

这意味着以太网在Agent时代正在"收复失地"。RoCE v2（RDMA over Converged Ethernet）在400G以太网上的性能已经接近InfiniBand，而成本和运维复杂度远低于后者。对于大量中小型推理集群，全以太网方案（RoCE + DPU卸载）是更经济的选择。

关键洞察

NVIDIA的Spectrum-X以太网平台正在快速渗透推理市场。预计到2027年，全球AI推理集群中以太网占比将超过60%，而训练集群中InfiniBand仍将保持50%+的份额。这是AI网络市场第一次出现明显的"分化"。

2.4 存储：向量数据库与知识库

Agent与纯对话模型的最大区别在于：Agent需要记忆。这个"记忆"就是向量数据库和知识库。

每个Agent实例都需要访问向量数据库进行RAG（检索增强生成），这带来了新的存储需求：

向量索引存储：亿级向量的实时检索，对SSD的随机读IOPS要求极高
对象存储：Agent产生的中间结果、日志、文档需要海量对象存储
分布式缓存：热门知识库条目的缓存层，降低向量检索延迟

这对存储架构的影响是：AI数据中心不再只是"GPU+网络"，还需要配备高性能存储层。全闪存阵列（NVMe SSD）和分布式对象存储成为AI数据中心的标配。

2.5 边缘数据中心崛起

并非所有Agent推理都需要在云端完成。隐私敏感型Agent（医疗、金融、企业内部）需要在本地部署；低延迟型Agent（自动驾驶、工业控制、机器人）需要在边缘部署。

这催生了一个新市场：边缘AI数据中心。特点是：

规模小（几卡到几十卡），部署在企业机房或运营商边缘节点
功耗低，自然风冷或简单液冷即可
需要与云端Agent平台无缝协同（模型同步、数据同步）

NVIDIA的GB10（Grace Blackwell 10）和DGX Spark就是面向这个市场的产品，单卡功耗仅100W左右，适合边缘部署。

三、广域网：Agent流量重塑网络架构

3.1 Agent流量的独特特征

Anthropic在2025年的研究中详细分析了Claude Code的网络流量特征，揭示了Agent流量的几个关键特点：

长连接：Agent一次任务可能持续数分钟到数小时，TCP连接长时间保持
请求体积大：单次请求可能携带数十MB的上下文（代码库、文档、图片）
流式响应：LLM采用token流式输出，需要稳定的低延迟链路
东西向为主：Agent调用多个微服务/API，数据中心间的东西向流量占比显著提升
突发性：Agent执行工具调用时会产生突发的网络请求

这些特征与传统的Web浏览、视频流媒体、云游戏流量模式完全不同，对广域网提出了新的要求。

3.2 骨干网：东西向流量激增

传统互联网流量以南北向为主（用户→数据中心）。但Agent时代，数据中心之间的流量将成为主导。

一个典型的Agent工作流可能涉及：

用户请求到达最近的推理节点
推理节点调用远端的知识库（可能在另一个数据中心）
Agent执行工具调用（搜索API、数据库查询、代码执行），这些服务分布在全球各地
中间结果需要在多个数据中心之间同步

这对骨干网的影响：

互联带宽需求激增：Google、Microsoft、Meta等巨头正在大规模铺设海底光缆和DCI（数据中心互联）专网
流量工程复杂化：Agent流量的长尾延迟分布要求更智能的路由优化
多CDN协同：模型权重、知识库需要通过CDN分发到边缘节点

关键洞察

Google在2025年宣布的"Jupiter"网络架构升级，将数据中心间互联带宽提升到100Tbps级别，核心驱动力就是Agent和AI工作负载。预计到2028年，全球前十大云服务商的DCI带宽将超过1Pbps。

3.3 边缘网络：低延迟推理的需求

很多Agent应用对延迟极其敏感：

实时对话Agent：端到端延迟需低于500ms（包括语音识别+LLM推理+语音合成）
自动驾驶Agent：决策延迟需低于100ms
工业检测Agent：需要在产线边缘实时处理视觉数据

这推动了5G-A/6G与边缘计算的深度融合：

5G-A的URLLC（超可靠低延迟通信）能力为Agent提供稳定的无线回传
MEC（多接入边缘计算）节点部署轻量级推理模型
通感一体（ISAC）让网络同时具备通信和感知能力，为机器人Agent提供环境感知

3.4 安全：Agent流量的信任挑战

Agent流量带来了全新的安全挑战：

API滥用：Agent可以自动调用大量API，如何防止恶意Agent的DDoS攻击？
数据泄露：Agent处理的数据可能跨越多个网络域和司法管辖区
身份验证：Agent代表的"用户"身份如何验证和授权？
流量加密：Agent间的通信需要端到端加密，但对延迟有影响

Zero Trust架构在Agent时代变得更加重要。网络不再信任任何"内部"流量——因为Agent流量可能来自任何地方，代表任何身份。

四、运营商的机会与挑战

对于电信运营商而言，Agent时代既是机遇也是挑战：

机会

DCI专网：为云服务商提供数据中心间的高速互联
边缘算力：利用5G基站和MEC节点提供边缘推理服务
AI原生网络：用AI优化网络运维（自愈网络、智能调度）
企业Agent平台：为行业客户提供私有化Agent部署方案

挑战

流量模式突变：传统网络规划基于南北向流量，Agent的东西向流量模式完全不同
带宽压力：Agent流量总量可能在3-5年内翻倍
收入模式：如何从Agent流量中获得收益？传统按带宽计费不够灵活
竞争加剧：云服务商自建网络，绕过运营商

中国运营商已经看到了这个趋势。中国移动的"算力网络"战略、中国电信的"云网融合"、中国联通的"AI+算力"，本质上都是在为Agent时代做准备。运营商的核心优势在于无处不在的网络覆盖——这正是Agent分布式部署所需要的。

五、未来展望

综合来看，Agent时代对基础设施的影响可以用三个关键词概括：分布式、持续性、智能化。

时间线	数据中心	广域网
2025-2026	GPU集群规模持续扩大，液冷普及率突破50%，核电+可再生能源成为主流	云服务商大规模建设DCI专网，5G-A MEC节点开始部署轻量级Agent
2027-2028	边缘AI数据中心规模化部署，浸没式液冷成本下降，全以太网推理集群成为主流	Agent流量占总流量比例超过20%，6G标准化启动，通感一体商用
2029-2030	AI原生数据中心（非改造）成为新建主流，PUE普遍低于1.1	AI流量成为互联网主导，Zero Trust全面普及，运营商转型为"算力+网络"综合服务商

最终思考

大模型训练让数据中心变"大"，Agent部署让数据中心变"多"。未来十年，基础设施投资的重点将从"建设更大的数据中心"转向"建设更多、更智能、更绿色的数据中心网络"。这不是简单的规模扩张，而是整个基础设施范式的根本转变。

由芒果虾 AI 研究生成 · 仅供参考
数据来源：NVIDIA、Google、Anthropic、IDC、Gartner公开报告

Agent时代的数据中心与广域网基础设施演进

目录

一、引言：从训练到推理，从对话到行动

大模型训练时代

Agent部署时代

二、数据中心：Agent时代的五大变革

2.1 供电：从MW到GW的跨越

关键洞察

2.2 制冷：液冷成为必选项

2.3 网络架构：InfiniBand与RoCE的博弈

关键洞察

2.4 存储：向量数据库与知识库

2.5 边缘数据中心崛起

三、广域网：Agent流量重塑网络架构

3.1 Agent流量的独特特征

3.2 骨干网：东西向流量激增

关键洞察

3.3 边缘网络：低延迟推理的需求

3.4 安全：Agent流量的信任挑战

四、运营商的机会与挑战

机会

挑战

五、未来展望

最终思考