信息透明度声明:截至发稿时,锐捷官网未公开该智算网络方案的具体交换机型号、端口速率(400G/800G)、RoCEv2参数、延迟指标等核心技术规格。本文基于大会官方发布信息
[1]和智算网络行业通用技术架构进行分析,对架构师选型决策仍有参考价值。待锐捷公布详细产品规格后,本文将适时补充。
方案概述
在2026 EBG全球合作伙伴大会上,锐捷网络正式发布面向大模型训练场景的"十万卡集群超大规模组网"智算网络方案[1]。该方案定位于解决万卡乃至十万卡GPU集群互联的网络通信瓶颈问题,是锐捷从传统园区网/数据中心网络厂商向AI算力网络领域拓展的战略级产品。
目标客户明确指向:互联网大模型公司、AI算力运营商(如智谱、百川、MiniMax等)、运营商智算中心、以及建设自有AI基础设施的大型企业。锐捷的市场意图清晰——在华为、中兴、新华三之外,以"极高吞吐+高可靠+简部署"的组合拳切入智算网络市场,争取成为国产智算网络的第三/第四选择。
锐捷官方强调了该方案的四大核心卖点:十万卡集群组网能力、极高吞吐网络、训练任务一次"跑到底"的高可靠性、简部署智运维[1]。
技术架构与核心原理
注意:以下技术架构分析基于行业通用智算网络拓扑和锐捷已公开信息推断,具体实现细节以锐捷官方技术白皮书为准。
十万卡组网:为什么是行业天花板?
十万卡GPU集群的网络互联,是目前AI训练网络公认的技术难点。以NVIDIA H100/H200集群为例,单卡NVLink带宽900GB/s,但跨节点通信只能依赖InfiniBand(IB)或RoCE以太网。在All-to-All通信密集的大模型训练(如GPT类Transformer架构)中,网络通信时间可能占训练总时间的30-50%。
十万卡量级意味着:
- 3-5层Spine-Leaf CLOS拓扑:典型的万卡集群使用2-3层CLOS,十万卡需要3-5层,网络跳数增加,延迟和拥塞控制成为核心挑战
- 百万级流表规模:网络设备需处理海量并发流,对交换芯片的流表容量和转发性能提出极高要求
- 故障域管理:十万卡集群中硬件故障概率显著增加(MTBF视角),如何做到"训练不中断"是核心竞争力
- ECMP负载均衡优化:传统ECMP的哈希冲突在大规模集群中导致严重拥塞,需要更精细化的负载均衡方案(如动态负载均衡、Flowlet Switching等)
极高吞吐网络:RoCEv2 vs InfiniBand
锐捷方案强调"极高吞吐",结合锐捷已有技术积累(官网技术博文标签包含RDMA、CLOS、ECMP等[2]),推断该方案基于RoCEv2(RDMA over Converged Ethernet)协议栈。这是目前国产智算网络的主流路线:
- RoCEv2优势:复用以太网基础设施,降低部署成本;支持标准以太网交换机(无需专用IB交换机);与现有数据中心网络运维体系兼容
- 关键技术要求:PFC(Priority Flow Control)无损网络、ECN(Explicit Congestion Notification)显式拥塞通知、DCQCN(Datacenter Quantized Congestion Notification)拥塞控制算法
- 锐捷技术基础:锐捷在SDN领域有超过10年积累,ONP开放网络平台支持NETCONF/gRPC/OpenConfig等协议[3],具备构建可编程网络基础设施的技术能力
高可靠:训练任务一次"跑到底"
锐捷强调"训练任务一次跑到底"[1],这直击大模型训练的最大痛点。一次万卡训练可能运行数周到数月,任何网络中断(如链路故障、交换机宕机、光模块故障)都可能导致训练从检查点(checkpoint)重头开始,浪费大量GPU算力和时间。实现这一目标需要:
- 亚秒级故障切换:链路/设备故障时,流量在亚秒内重新路由,对上层训练任务透明
- 无损升级:网络设备固件升级、配置变更不中断业务流量
- 多路径冗余:ECMP多路径+BGP/EVPN快速收敛,确保任意单点故障不影响训练
- 可视化监控:实时监控网络拥塞、丢包、延迟等指标,提前预警潜在风险
简部署、智运维
锐捷的差异化定位之一是降低智算网络的部署和运维门槛。传统智算网络(尤其IB方案)需要专业的HPC网络工程师,而锐捷强调"简部署智运维"[1],可能通过以下方式实现:
- 自动化部署:基于ONP平台的Zero-Touch Provisioning,交换机上电后自动完成配置下发和拓扑发现
- 统一管理平台:与锐捷SDN控制器整合,提供统一的网络管理界面
- AI辅助运维:利用机器学习进行网络异常检测、根因分析、容量规划
关键参数与技术指标
以下参数为行业基准参考值,非锐捷官方公布数据。锐捷尚未公开具体交换机型号和端口规格,以下为十万卡智算网络的行业通用技术要求。
400G/800G
主流GPU服务器网卡速率(行业标准)
十万卡智算网络架构选型对比
| 维度 | InfiniBand (NVIDIA) | RoCEv2 以太网(锐捷路线) | 关键差异 |
| 网络协议 | IB(专有协议) | RoCEv2 over Ethernet | 以太网生态开放、运维门槛低 |
| 交换设备 | NVIDIA Quantum/Spectrum | 标准以太网交换机 | 以太网方案供应商选择多 |
| 部署复杂度 | 高(需HPC网络专家) | 中(可复用以太网运维体系) | 锐捷定位"简部署"[1] |
| 成本 | 高(专用设备+许可证) | 相对较低(商用以太网设备) | 以太网方案CAPEX优势明显 |
| 生态兼容 | 仅NVIDIA GPU生态 | 支持NVIDIA/AMD/昇腾等 | 锐捷方案更灵活[1] |
| 大规模组网 | 成熟(已有万卡实践) | 发展中(行业共同挑战) | 十万卡是双方共同目标 |
厂商策略与市场分析
锐捷在智算网络市场的位置
锐捷网络长期以企业级网络设备见长,在中国企业级WLAN市场连续6年出货量第一[4]。进入智算网络领域,锐捷的优势在于:
- 丰富的园区/数据中心网络经验:锐捷已有覆盖园区、数据中心和广域网的SDN解决方案[3]
- ONP开放网络平台:支持开放化、虚拟化、智能化[3],与智算网络的可编程需求高度契合
- 成本竞争力:相比华为(CloudEngine系列)、中兴(ZXR10系列),锐捷在价格上通常有10-20%的优势
- AMD生态合作:大会合作伙伴包含AMD[1],暗示锐捷智算网络方案可能针对AMD Instinct GPU生态进行优化
竞品格局
| 厂商 | 智算网络产品 | 核心优势 | 与锐捷的差异 |
| 华为 | CloudEngine 16800系列 | 自研芯片(Solar系列)、昇腾生态绑定、端到端方案 | 全栈自研,但封闭度高 |
| 中兴 | ZXR10 9900系列 | 自研芯片、运营商渠道、性价比 | 运营商市场强,企业市场弱 |
| 新华三 | H3C S9820系列 | 数据中心市场积累深、生态丰富 | 产品线广但AI专项投入晚 |
| 锐捷 | 待公布(十万卡方案) | "简部署智运维"、以太网生态开放、成本优势 | 差异化定位在运维友好 |
| NVIDIA | Quantum-2/Spectrum-4 | IB协议生态、GPU原生集成 | 性能最强但成本最高、厂商锁定 |
对ICT架构师的价值
适用场景
- 万卡以上GPU集群建设:锐捷方案的明确目标是十万卡规模[1],适合大型AI算力基础设施建设
- 非NVIDIA GPU生态:如果使用AMD Instinct、海光DCU、昇腾等GPU,IB方案不可用,RoCEv2以太网是唯一选择
- 已有锐捷网络基础设施的客户:锐捷现有园区/数据中心网络客户可平滑扩展到智算网络,复用运维团队和工具链
- 对成本敏感的AI算力运营商:以太网方案的CAPEX和OPEX均低于IB方案
选型建议
- 等待详细规格:在锐捷公布具体交换机型号、端口速率、RoCE性能基准测试数据之前,不建议进行技术选型决策
- 关注兼容性验证:确认锐捷方案与目标GPU(NVIDIA/AMD/昇腾)的网卡和驱动兼容性,特别是PFC、ECN、DCQCN等特性的实现完整度
- 评估运维平台成熟度:"简部署智运维"是锐捷的核心差异化卖点[1],需要实际验证其SDN控制器、监控平台的功能完整度和稳定性
- 要求POC测试:十万卡规模无法直接POC,建议先在千卡规模进行功能验证和性能基准测试
- 关注生态系统:大会合作伙伴含AMD[1],如果使用AMD GPU,锐捷方案可能是最佳选择之一
与现有技术栈的集成
- 与锐捷ONP平台集成:如已部署锐捷SDN控制器,智算网络可作为新增网络域纳入统一管理[3]
- 与Kubernetes集成:智算网络需要与K8s网络插件(如Multus、SR-IOV CNI)协同,确认锐捷方案是否支持
- 与存储网络融合:评估是否支持RoCEv2存储网络(如全闪存AFA阵列的NVMe over Fabrics),实现计算和存储网络的统一