智谱ZCube组网架构深度技术解析:取消Spine层如何释放15%推理算力

芒果虾 2026年5月22日 阅读约22分钟
+15%
GPU推理吞吐提升
-40.6%
TTFT P99降低
-33%
交换机+光模块成本节省
2跳
网络直径(vs Clos 3跳)
SIGCOMM'25
发表会议

核心结论

ZCube的核心故事不是"又一种网络优化方案",而是取消Spine层、用二部图扁平互联替代传统Clos分层,从而从根本上解决了大模型推理场景中PD分离带来的流量不对称问题。在GLM-5.1千卡生产集群上,GPU和软件原封不动,仅重构网络拓扑就实现了15%推理吞吐提升和40.6%的TTFT P99降低,同时节省33%交换机与光模块成本[1]。这意味着现有推理集群中约15%的GPU算力被传统架构的低效拓扑"锁死"了。

这一成果发表在ACM SIGCOMM 2025——计算机网络领域最高级别学术会议,评审评价其"significantly change the way we think about and understand networking"(显著改变了整个行业对网络的认知方式)[2]

一、技术背景:推理网络被忽视的流量不对称

AI网络优化的焦点长期集中在训练场景,但推理的流量模式与训练有本质差异。大模型推理普遍采用PD分离(Prefill-Decode Separation)部署——Prefill节点处理完整的上下文编码,Decode节点做自回归Token生成。这种架构带来的网络流量具有三个传统Clos网络未曾面对的特征:

第一,KV Cache传输量大且极度不均匀。不同请求的上下文长度差异可达数十倍——一个简单问答可能只有几百Token的KV Cache,而一个长文档摘要可能产生数十万Token。这意味着同一时刻,不同Prefill节点向不同Decode节点传输的数据量差异巨大[1]。传统ROFT架构(Rail-Optimized Fat-Tree)的ECMP负载均衡假设流量均匀分布,在推理场景下部分链路过载、部分链路空闲,效率严重损失。

ROFT中Leaf交换机间的流量不均衡
Figure 3:在 ROFT 架构中,Leaf 交换机间的流量极易出现不均衡
同一台机器不同网卡的KV Cache传输负载差异
Figure 4:同一台机器上不同网卡间的 KV Cache 传输负载严重失衡

第二,拥塞传导呈热点聚集。由于KV Cache大小不可预测,少数Leaf交换机在特定时刻会变成流量热点。智谱实测发现,PFC(Priority-based Flow Control)反压在这些热点处频繁触发,反压信号沿网络向上游传播,导致不相关的流也被阻塞[1]。这不是带宽不够——而是流量模式与拓扑的"错配"导致了人为的拥塞。

Leaf交换机端口上频繁的PFC Pause事件
Figure 5:部分 Leaf 交换机端口上频繁触发的 PFC Pause 事件

第三,带宽的边际效益显著。智谱做了一个关键的控制变量实验:GPU和软件全部不变,仅将网卡带宽从100Gbps升级到200Gbps,结果是推理吞吐提升19%、TTFT降低22%[1]。这个数据说明推理场景对网络带宽高度敏感——瓶颈确实在网络,而非计算。

智谱控制变量实验:带宽升级效果
实验条件:GPU不变 / 软件不变 / 代码不变,仅升级 100G→200Gbps
结果:推理吞吐 +19%,TTFT -22%[1]

推论:如果带宽翻倍只能换来19%的吞吐提升,说明瓶颈不仅在带宽绝对值,
更在于流量分配效率——即拓扑结构的问题。ZCube的思路正是从拓扑层面解决。
两种网络拥塞类型图解
Figure 6:两种网络拥塞类型的图解说明
对比图A
Figure 2a:传统架构下的网络拥塞状况
对比图B
Figure 2b:ZCube 架构下的网络拥塞改善

二、ZCube三层架构:扁平化·混合接入·容错

ZCube的技术架构可以拆解为三个紧密关联的层次。核心思想是:取消传统Clos的分层结构,用数学上严格的二部图(Bipartite Graph)互联替代Spine-Leaf两级转发。

2.1 第一层:取消Spine,全网扁平化

传统两层Clos中,Leaf交换机通过Spine层互联,任意两个不同Leaf下的GPU通信需要3跳(GPU→Leaf→Spine→Leaf→GPU)。ZCube的做法是直接取消Spine层——将所有Leaf交换机按序号分为奇数组和偶数组,两组之间做完全二部图互联:每台奇数交换机与所有偶数交换机直接相连[1]

网络直径从3跳降到2跳。更重要的是,这种结构在数学上保证了全网任意两张GPU之间有且仅有一条最优路径——不存在ECMP的多路径选择问题,从根本上消除了Hash碰撞导致的负载不均。

ZCube架构总览图
Figure 7:ZCube 架构总览——取消Spine层,Leaf交换机二部图直连
ZCube vs ROFT 拓扑对比总览
Figure 1:ZCube 相比 ROFT 有效避免了拓扑引入的网络拥塞

2.2 第二层:单轨+多轨混合接入

现代GPU服务器通常配备双端口网卡。传统做法是两个端口都接到同一个Leaf交换机(单轨接入)或分别接到两个Leaf(多轨接入),两者各有利弊。ZCube引入了单轨+多轨混合接入机制——根据服务器的角色(Prefill vs Decode)和流量特征,动态选择接入方式[1]

混合接入的核心工程价值在于:结合二部图拓扑,确保全网任意两张GPU之间有且仅有一条最优路径。这条路径是拓扑结构决定的,不需要运行时做ECMP Hash——从结构层面就实现了流量负载均衡。这意味着传统方案中因Hash碰撞导致的"热点Leaf"问题在ZCube中不存在。

ZCube架构下的负载均衡
Figure 8:ZCube 架构下的负载均衡效果

2.3 第三层:更低成本,更强容错

取消Spine层直接减少了约1/3的交换机和光模块数量[1]。但ZCube的容错性反而更好——论文数据显示,GPU对不可达概率比传统双平面Clos低50%以上[1]

容错性提升的数学直觉:在传统Clos中,Spine交换机是关键中转节点,一台Spine故障会影响所有跨Leaf的通信。ZCube的二部图结构中,每对Leaf之间有直接连接,任意单台Leaf故障只影响其直连的GPU,不会波及其他Leaf对之间的通信路径。故障域更小、更局部化。

三、工程计算验证

验证1:扩展性计算
ZCube使用 51.2T 交换机(128 × 400Gbps 端口)[1]
二部图中,每台交换机的端口分为:下行连接GPU + 上行连接对组交换机

假设 N 台交换机(N/2 奇数 + N/2 偶数):
每台上行端口数 = N/2(连接所有对组交换机)
每台下行端口数 = 128 - N/2
总GPU网卡数 = N × (128 - N/2)[1]

当 N = 128 时:每台上行 = 64,下行 = 64,总GPU = 128 × 64 = 8,192
当 N = 256 时(需要更高密度或更大交换机):
使用更高容量交换机或多平面部署 → 可扩展至 16,384 块 400Gbps 网卡[1]
更高容量交换机或多平面 → 数万至数十万 GPU
验证2:15%吞吐提升的经济价值
假设GLM-5.1集群规模为 N 个GPU,推理吞吐为 T tokens/s
ZCube提升后:T × 1.15 tokens/s[1]
等效于增加 0.15N 个GPU的推理能力
如果 N = 10,000 GPU → 等效增加 1,500 GPU

万卡规模估算:网络硬件节省 2.1-6.4 亿元[1]
验证3:容错性量化
ZCube论文数据:GPU对不可达概率比双平面Clos低50%+[1][2]

直觉解释:传统Clos中,Spine是"咽喉"——一台Spine故障影响所有跨Leaf流量。
ZCube二部图中,Leaf间直接互联,单点故障的爆炸半径更小。

四、与OpenAI MRC的技术路线对比

ZCube和OpenAI MRC几乎在同一时期浮出水面——中美两边都开始在网络层动手。两者代表了AI网络优化的两个正交方向,不是替代关系,而是互补关系。

维度 智谱ZCube OpenAI MRC
目标场景 大规模AI推理 大规模AI训练
核心创新 架构层:重构拓扑(扁平化) 协议层:多路径路由+拥塞控制
拓扑改变 取消Spine,二部图 保留多平面+Clos
硬件改动 重新布线(物理改造) 需要MRC网卡
软件改动 无需 需要训练框架适配
性能提升 +15%吞吐, -40.6% TTFT P99[1] 实现13万GPU有效训练
成本节省 33%交换机+光模块[1] ~50-60%交换机总数(vs传统4层)
学术认可 SIGCOMM 2025 暂无学术论文(工程实践)

两者可叠加:架构层无拥塞 + 协议层强容错

MRC的多平面架构和ZCube的二部图拓扑并不矛盾。在MRC的每个平面内部,可以采用ZCube式的扁平拓扑优化。叠加使用的理论效果:训练场景获得MRC的扩展性和容错性,推理场景获得ZCube的吞吐和延迟优化。两者同在2025年上半年被推到产业台前,不是巧合——当GPU Scaling的边际成本越来越高,网络层成为新的效率杠杆。

从投资回报率看,ZCube的ROI极高——零GPU投入换来15%产出提升。但MRC的价值天花板更高——没有它就做不了超大规模训练。两者解决的是不同层次的问题。详细分析参见:OpenAI MRC协议深度技术解析

五、产业落地与生态

5.1 合作方与分工

ZCube不是智谱一家的成果,而是一个产学研联合体。每个参与方扮演了不同角色:

合作方 角色 核心贡献
清华大学 学术研究 论文共同作者,网络架构理论,拓扑数学证明
驭驯网络 工程落地 完整自动化工具链:机房布局设计、连线正确性校验、配置自动生成与批量下发[1]
字节跳动 产业验证 论文共同作者,提供大规模网络场景的工程经验和验证环境
中关村实验室 基础研究 论文共同作者,国家级网络研究平台支持
智谱 发起方+生产验证 提出问题、提供生产集群(GLM-5.1)、论文主要作者

值得强调的是驭驯网络的角色。ZCube的部署不是软件升级——是物理改造:布线、IP编址、路由策略、交换机配置全部重新设计[1]。驭驯网络为此开发了完整的自动化工具链,从机房布局设计到连线正确性校验再到配置自动生成与批量下发,将传统需要数周的物理改造压缩到可控周期内。没有这套工具链,ZCube的工程落地难度会高出一个数量级。

5.2 首次生产验证

ZCube在智谱GLM-5.1 coding推理集群上完成了首次生产验证[1]

  • 集群规模:千卡级
  • 实验条件:GPU/软件/代码全部不动,只换网络拓扑
  • 推理吞吐:+15%
  • TTFT P99:-40.6%
  • 网络设备成本:-33%(交换机+光模块)
  • 运行时长:已稳定运行超两周
  • 万卡规模估算:网络硬件节省 2.1-6.4 亿元

这个实验的设计严谨性值得注意:控制了GPU型号、软件版本、推理服务代码三个变量,仅改变网络拓扑。这使得15%的吞吐提升可以完全归因于网络架构的变化,排除了其他干扰因素。在AI系统研究中,这种"单变量控制"的生产级实验非常罕见。

生产验证数据A
Figure 9a:生产环境中 ZCube 的推理吞吐对比
生产验证数据B
Figure 9b:生产环境中 ZCube 的延迟分布对比

5.3 学术认可:SIGCOMM 2025

ACM SIGCOMM是计算机网络领域的顶级会议,年接收率通常在15-20%。ZCube论文不仅被接收,更获得了审稿人的高度评价——"significantly change the way we think about and understand networking"(显著改变了整个行业对网络的认知方式)[2]。这一评价的分量在于:SIGCOMM审稿人通常对"夸大创新"高度警惕,能获得这种措辞的评语,说明论文在理论贡献和实验验证两个维度都达到了极高标准。

这也是中国AI公司在网络系统领域的标志性突破——在网络系统这一传统上由北美机构主导的学术领域,智谱/清华/驭驯网络的联合工作获得了全球最高级别认可。

5.4 业界评价

  • 观察者网:"GPU军备竞赛两年后,网络成为新战场"——准确定位了产业趋势[3]
  • 搜狐/新浪/凤凰:"推翻二十年组网逻辑"——标题虽有传播色彩,但技术方向准确[4]
  • 同花顺:聚焦"智谱首次实践验证"——资本市场关注的是可复制的商业价值[5]

5.5 GPU适配广度

ZCube不绑定特定GPU。目前已适配英伟达、昇腾、寒武纪、摩尔线程等多家芯片[1]。这一点非常重要——ZCube优化的是网络拓扑而非GPU通信协议,其核心逻辑对GPU型号无依赖。在国产GPU加速迭代的当下,这种架构级的通用性是一个实际的商业优势。

六、工程挑战与局限性

部署是物理改造,不是软件升级。ZCube的实施需要重新布线、重新分配IP地址、重新配置交换机路由策略[1]。这意味着已有的推理集群必须经历一次计划内停机改造。对于7×24小时在线的推理服务,停机窗口的安排本身就是工程挑战。驭驯网络的自动化工具链缓解了这个问题,但没有完全消除。

Incast拥塞仍需拥塞控制。ZCube消除了拓扑层面的流量不均,但无法解决"多对一"的incast问题——当多个Prefill节点同时向同一个Decode节点发送KV Cache时,最后一跳仍然会拥塞[1]。这需要传输层的拥塞控制机制(如DCQCN)来处理,不是拓扑设计能解决的。

还未走出智谱。ZCube目前的生产验证全部在智谱自身的GLM-5.1集群上完成[1]。它是否在其他推理工作负载(如MoE模型、多模态推理)上同样有效?在其他网络设备厂商的交换机上是否可复现?这些问题的答案需要更广泛的第三方验证。

拓扑与推理架构耦合。ZCube的拓扑优化针对PD分离部署设计。当推理架构变化——例如从PD分离切换到Attn-FFN分离,或引入MoE动态路由——最优拓扑可能不同。每次架构迭代都可能需要重新优化物理布线。

七、结论

1. ZCube证明了一个被低估的事实:推理场景的网络效率损失远比想象的大。不是网络不够快,而是传统Clos拓扑与PD分离的流量模式根本不匹配。取消Spine层、用二部图直连替代两级转发,15%的吞吐提升说明过去业界用训练优化的网络架构来跑推理,存在系统性的效率浪费。

2. "不动GPU、不改软件"是ZCube最大的商业优势,也划清了技术边界。零GPU改动意味着极低的部署门槛和极高的ROI,但优化的天花板受限于现有硬件——无法通过协议创新(如MRC的数据包喷射)突破物理极限。ZCube是在现有约束内做到的最好,而非突破约束后的最优。好在两者可以叠加。

3. SIGCOMM 2025是中国AI基础设施研究的里程碑。网络系统领域长期由北美机构主导,智谱/清华/驭驯网络的联合工作获得顶级会议的高度认可,标志着中国AI公司在"从用AI到做AI基础设施"的转型中,开始具备全球一流的技术输出能力。后续观察点:(1) ZCube在非PD分离架构上的适用性;(2) 驭驯网络的商业化进展——能否将ZCube从"智谱专属"变成"行业通用方案";(3) 与MRC等训练网络方案的融合可能性。

参考来源