智谱ZCube组网架构深度技术解析：取消Spine层如何释放15%推理算力

芒果虾 2026年5月22日阅读约22分钟

+15%

GPU推理吞吐提升

-40.6%

TTFT P99降低

-33%

交换机+光模块成本节省

2跳

网络直径（vs Clos 3跳）

SIGCOMM'25

发表会议

核心结论

ZCube的核心故事不是"又一种网络优化方案"，而是取消Spine层、用二部图扁平互联替代传统Clos分层，从而从根本上解决了大模型推理场景中PD分离带来的流量不对称问题。在GLM-5.1千卡生产集群上，GPU和软件原封不动，仅重构网络拓扑就实现了15%推理吞吐提升和40.6%的TTFT P99降低，同时节省33%交换机与光模块成本^[1]。这意味着现有推理集群中约15%的GPU算力被传统架构的低效拓扑"锁死"了。

这一成果发表在ACM SIGCOMM 2025——计算机网络领域最高级别学术会议，评审评价其"significantly change the way we think about and understand networking"（显著改变了整个行业对网络的认知方式）^[2]。

一、技术背景：推理网络被忽视的流量不对称

AI网络优化的焦点长期集中在训练场景，但推理的流量模式与训练有本质差异。大模型推理普遍采用PD分离（Prefill-Decode Separation）部署——Prefill节点处理完整的上下文编码，Decode节点做自回归Token生成。这种架构带来的网络流量具有三个传统Clos网络未曾面对的特征：

第一，KV Cache传输量大且极度不均匀。不同请求的上下文长度差异可达数十倍——一个简单问答可能只有几百Token的KV Cache，而一个长文档摘要可能产生数十万Token。这意味着同一时刻，不同Prefill节点向不同Decode节点传输的数据量差异巨大^[1]。传统ROFT架构（Rail-Optimized Fat-Tree）的ECMP负载均衡假设流量均匀分布，在推理场景下部分链路过载、部分链路空闲，效率严重损失。

ROFT中Leaf交换机间的流量不均衡 — Figure 3：在 ROFT 架构中，Leaf 交换机间的流量极易出现不均衡

同一台机器不同网卡的KV Cache传输负载差异 — Figure 4：同一台机器上不同网卡间的 KV Cache 传输负载严重失衡

第二，拥塞传导呈热点聚集。由于KV Cache大小不可预测，少数Leaf交换机在特定时刻会变成流量热点。智谱实测发现，PFC（Priority-based Flow Control）反压在这些热点处频繁触发，反压信号沿网络向上游传播，导致不相关的流也被阻塞^[1]。这不是带宽不够——而是流量模式与拓扑的"错配"导致了人为的拥塞。

Leaf交换机端口上频繁的PFC Pause事件 — Figure 5：部分 Leaf 交换机端口上频繁触发的 PFC Pause 事件

第三，带宽的边际效益显著。智谱做了一个关键的控制变量实验：GPU和软件全部不变，仅将网卡带宽从100Gbps升级到200Gbps，结果是推理吞吐提升19%、TTFT降低22%^[1]。这个数据说明推理场景对网络带宽高度敏感——瓶颈确实在网络，而非计算。

智谱控制变量实验：带宽升级效果
实验条件：GPU不变 / 软件不变 / 代码不变，仅升级 100G→200Gbps
结果：推理吞吐 +19%，TTFT -22%^[1]

推论：如果带宽翻倍只能换来19%的吞吐提升，说明瓶颈不仅在带宽绝对值，
更在于流量分配效率——即拓扑结构的问题。ZCube的思路正是从拓扑层面解决。

二、ZCube三层架构：扁平化·混合接入·容错

ZCube的技术架构可以拆解为三个紧密关联的层次。核心思想是：取消传统Clos的分层结构，用数学上严格的二部图（Bipartite Graph）互联替代Spine-Leaf两级转发。

2.1 第一层：取消Spine，全网扁平化

传统两层Clos中，Leaf交换机通过Spine层互联，任意两个不同Leaf下的GPU通信需要3跳（GPU→Leaf→Spine→Leaf→GPU）。ZCube的做法是直接取消Spine层——将所有Leaf交换机按序号分为奇数组和偶数组，两组之间做完全二部图互联：每台奇数交换机与所有偶数交换机直接相连^[1]。

网络直径从3跳降到2跳。更重要的是，这种结构在数学上保证了全网任意两张GPU之间有且仅有一条最优路径——不存在ECMP的多路径选择问题，从根本上消除了Hash碰撞导致的负载不均。

ZCube架构总览图 — Figure 7：ZCube 架构总览——取消Spine层，Leaf交换机二部图直连

ZCube vs ROFT 拓扑对比总览 — Figure 1：ZCube 相比 ROFT 有效避免了拓扑引入的网络拥塞

2.2 第二层：单轨+多轨混合接入

现代GPU服务器通常配备双端口网卡。传统做法是两个端口都接到同一个Leaf交换机（单轨接入）或分别接到两个Leaf（多轨接入），两者各有利弊。ZCube引入了单轨+多轨混合接入机制——根据服务器的角色（Prefill vs Decode）和流量特征，动态选择接入方式^[1]。

混合接入的核心工程价值在于：结合二部图拓扑，确保全网任意两张GPU之间有且仅有一条最优路径。这条路径是拓扑结构决定的，不需要运行时做ECMP Hash——从结构层面就实现了流量负载均衡。这意味着传统方案中因Hash碰撞导致的"热点Leaf"问题在ZCube中不存在。

ZCube架构下的负载均衡 — Figure 8：ZCube 架构下的负载均衡效果

2.3 第三层：更低成本，更强容错

取消Spine层直接减少了约1/3的交换机和光模块数量^[1]。但ZCube的容错性反而更好——论文数据显示，GPU对不可达概率比传统双平面Clos低50%以上^[1]。

容错性提升的数学直觉：在传统Clos中，Spine交换机是关键中转节点，一台Spine故障会影响所有跨Leaf的通信。ZCube的二部图结构中，每对Leaf之间有直接连接，任意单台Leaf故障只影响其直连的GPU，不会波及其他Leaf对之间的通信路径。故障域更小、更局部化。

三、工程计算验证

验证1：扩展性计算
ZCube使用 51.2T 交换机（128 × 400Gbps 端口）^[1]
二部图中，每台交换机的端口分为：下行连接GPU + 上行连接对组交换机

假设 N 台交换机（N/2 奇数 + N/2 偶数）：
每台上行端口数 = N/2（连接所有对组交换机）
每台下行端口数 = 128 - N/2
总GPU网卡数 = N × (128 - N/2)^[1]

当 N = 128 时：每台上行 = 64，下行 = 64，总GPU = 128 × 64 = 8,192
当 N = 256 时（需要更高密度或更大交换机）：
使用更高容量交换机或多平面部署 → 可扩展至 16,384 块 400Gbps 网卡^[1]
更高容量交换机或多平面 → 数万至数十万 GPU

验证2：15%吞吐提升的经济价值
假设GLM-5.1集群规模为 N 个GPU，推理吞吐为 T tokens/s
ZCube提升后：T × 1.15 tokens/s^[1]
等效于增加 0.15N 个GPU的推理能力
如果 N = 10,000 GPU → 等效增加 1,500 GPU

万卡规模估算：网络硬件节省 2.1-6.4 亿元^[1]

验证3：容错性量化
ZCube论文数据：GPU对不可达概率比双平面Clos低50%+^[1]^[2]

直觉解释：传统Clos中，Spine是"咽喉"——一台Spine故障影响所有跨Leaf流量。
ZCube二部图中，Leaf间直接互联，单点故障的爆炸半径更小。

四、与OpenAI MRC的技术路线对比

ZCube和OpenAI MRC几乎在同一时期浮出水面——中美两边都开始在网络层动手。两者代表了AI网络优化的两个正交方向，不是替代关系，而是互补关系。

维度	智谱ZCube	OpenAI MRC
目标场景	大规模AI推理	大规模AI训练
核心创新	架构层：重构拓扑（扁平化）	协议层：多路径路由+拥塞控制
拓扑改变	取消Spine，二部图	保留多平面+Clos
硬件改动	重新布线（物理改造）	需要MRC网卡
软件改动	无需	需要训练框架适配
性能提升	+15%吞吐, -40.6% TTFT P99^[1]	实现13万GPU有效训练
成本节省	33%交换机+光模块^[1]	~50-60%交换机总数（vs传统4层）
学术认可	SIGCOMM 2025	暂无学术论文（工程实践）

两者可叠加：架构层无拥塞 + 协议层强容错

MRC的多平面架构和ZCube的二部图拓扑并不矛盾。在MRC的每个平面内部，可以采用ZCube式的扁平拓扑优化。叠加使用的理论效果：训练场景获得MRC的扩展性和容错性，推理场景获得ZCube的吞吐和延迟优化。两者同在2025年上半年被推到产业台前，不是巧合——当GPU Scaling的边际成本越来越高，网络层成为新的效率杠杆。

从投资回报率看，ZCube的ROI极高——零GPU投入换来15%产出提升。但MRC的价值天花板更高——没有它就做不了超大规模训练。两者解决的是不同层次的问题。详细分析参见：OpenAI MRC协议深度技术解析

五、产业落地与生态

5.1 合作方与分工

ZCube不是智谱一家的成果，而是一个产学研联合体。每个参与方扮演了不同角色：

合作方	角色	核心贡献
清华大学	学术研究	论文共同作者，网络架构理论，拓扑数学证明
驭驯网络	工程落地	完整自动化工具链：机房布局设计、连线正确性校验、配置自动生成与批量下发^[1]
字节跳动	产业验证	论文共同作者，提供大规模网络场景的工程经验和验证环境
中关村实验室	基础研究	论文共同作者，国家级网络研究平台支持
智谱	发起方+生产验证	提出问题、提供生产集群（GLM-5.1）、论文主要作者

值得强调的是驭驯网络的角色。ZCube的部署不是软件升级——是物理改造：布线、IP编址、路由策略、交换机配置全部重新设计^[1]。驭驯网络为此开发了完整的自动化工具链，从机房布局设计到连线正确性校验再到配置自动生成与批量下发，将传统需要数周的物理改造压缩到可控周期内。没有这套工具链，ZCube的工程落地难度会高出一个数量级。

5.2 首次生产验证

ZCube在智谱GLM-5.1 coding推理集群上完成了首次生产验证^[1]：

集群规模：千卡级
实验条件：GPU/软件/代码全部不动，只换网络拓扑
推理吞吐：+15%
TTFT P99：-40.6%
网络设备成本：-33%（交换机+光模块）
运行时长：已稳定运行超两周
万卡规模估算：网络硬件节省 2.1-6.4 亿元

这个实验的设计严谨性值得注意：控制了GPU型号、软件版本、推理服务代码三个变量，仅改变网络拓扑。这使得15%的吞吐提升可以完全归因于网络架构的变化，排除了其他干扰因素。在AI系统研究中，这种"单变量控制"的生产级实验非常罕见。

5.3 学术认可：SIGCOMM 2025

ACM SIGCOMM是计算机网络领域的顶级会议，年接收率通常在15-20%。ZCube论文不仅被接收，更获得了审稿人的高度评价——"significantly change the way we think about and understand networking"（显著改变了整个行业对网络的认知方式）^[2]。这一评价的分量在于：SIGCOMM审稿人通常对"夸大创新"高度警惕，能获得这种措辞的评语，说明论文在理论贡献和实验验证两个维度都达到了极高标准。

这也是中国AI公司在网络系统领域的标志性突破——在网络系统这一传统上由北美机构主导的学术领域，智谱/清华/驭驯网络的联合工作获得了全球最高级别认可。

5.4 业界评价

观察者网："GPU军备竞赛两年后，网络成为新战场"——准确定位了产业趋势^[3]
搜狐/新浪/凤凰："推翻二十年组网逻辑"——标题虽有传播色彩，但技术方向准确^[4]
同花顺：聚焦"智谱首次实践验证"——资本市场关注的是可复制的商业价值^[5]

5.5 GPU适配广度

ZCube不绑定特定GPU。目前已适配英伟达、昇腾、寒武纪、摩尔线程等多家芯片^[1]。这一点非常重要——ZCube优化的是网络拓扑而非GPU通信协议，其核心逻辑对GPU型号无依赖。在国产GPU加速迭代的当下，这种架构级的通用性是一个实际的商业优势。

六、工程挑战与局限性

部署是物理改造，不是软件升级。ZCube的实施需要重新布线、重新分配IP地址、重新配置交换机路由策略^[1]。这意味着已有的推理集群必须经历一次计划内停机改造。对于7×24小时在线的推理服务，停机窗口的安排本身就是工程挑战。驭驯网络的自动化工具链缓解了这个问题，但没有完全消除。

Incast拥塞仍需拥塞控制。ZCube消除了拓扑层面的流量不均，但无法解决"多对一"的incast问题——当多个Prefill节点同时向同一个Decode节点发送KV Cache时，最后一跳仍然会拥塞^[1]。这需要传输层的拥塞控制机制（如DCQCN）来处理，不是拓扑设计能解决的。

还未走出智谱。ZCube目前的生产验证全部在智谱自身的GLM-5.1集群上完成^[1]。它是否在其他推理工作负载（如MoE模型、多模态推理）上同样有效？在其他网络设备厂商的交换机上是否可复现？这些问题的答案需要更广泛的第三方验证。

拓扑与推理架构耦合。ZCube的拓扑优化针对PD分离部署设计。当推理架构变化——例如从PD分离切换到Attn-FFN分离，或引入MoE动态路由——最优拓扑可能不同。每次架构迭代都可能需要重新优化物理布线。

七、结论

1. ZCube证明了一个被低估的事实：推理场景的网络效率损失远比想象的大。不是网络不够快，而是传统Clos拓扑与PD分离的流量模式根本不匹配。取消Spine层、用二部图直连替代两级转发，15%的吞吐提升说明过去业界用训练优化的网络架构来跑推理，存在系统性的效率浪费。

2. "不动GPU、不改软件"是ZCube最大的商业优势，也划清了技术边界。零GPU改动意味着极低的部署门槛和极高的ROI，但优化的天花板受限于现有硬件——无法通过协议创新（如MRC的数据包喷射）突破物理极限。ZCube是在现有约束内做到的最好，而非突破约束后的最优。好在两者可以叠加。

3. SIGCOMM 2025是中国AI基础设施研究的里程碑。网络系统领域长期由北美机构主导，智谱/清华/驭驯网络的联合工作获得顶级会议的高度认可，标志着中国AI公司在"从用AI到做AI基础设施"的转型中，开始具备全球一流的技术输出能力。后续观察点：(1) ZCube在非PD分离架构上的适用性；(2) 驭驯网络的商业化进展——能否将ZCube从"智谱专属"变成"行业通用方案"；(3) 与MRC等训练网络方案的融合可能性。

参考来源

[1] ZCube: A New Network Architecture for LLM Inference — 智谱官方技术博客, 2026-05
[2] OpenAI联合五巨头刚进场，中国团队的答卷已经上线 — 观察者网, 2026-05-21
[3] 推翻二十年组网逻辑，智谱落地ZCube，让同样的GPU多干15%的活 — 搜狐科技, 2026-05-21
[4] 智谱首次实践验证下一代AI集群组网架构ZCube — 同花顺, 2026-05-21
[5] 智谱发布AI Infra新成果：ZCube重构大模型推理网络 — 北京智源研究院, 2026-05-21
[6] 智谱联合清华等提出ZCube组网架构：大模型推理吞吐提升15% — 站长之家, 2026-05-21
[7] OpenAI联合五巨头刚进场，中国团队的答卷已经上线 — 凤凰网, 2026-05-21
[8] 智谱落地ZCube，大模型厂商同步押注下一代网络架构 — 财经号, 2026-05-21