OpenAI MRC协议深度技术解析:多平面网络如何重新定义超大规模AI集群组网
一、核心结论
MRC(Multipath Reliable Connection)的真正故事不是又一个RDMA传输协议的诞生,而是一次从网络拓扑层面对AI超算组网范式的结构性颠覆。传统思路是让更高的端口速率(400G→800G→1.6T)来解决带宽问题,MRC反其道而行——把一个800G接口拆成8个100G,连接到8个不同交换机,用"降速换平面"的策略换取指数级的路径冗余和两层网络架构的极致简洁[1]。
MRC的核心设计哲学是"以分治代集中"。在传统网络架构中,增加带宽意味着升级到更高速的单链路;MRC则认为,AI训练的瓶颈不是带宽峰值,而是可预测性——一次传输的迟到会通过同步屏障(synchronization barrier)波及整个训练任务,导致所有GPU空闲等待。因此,MRC不追求单链路峰值,而是追求"在故障和拥塞面前依然可预测的性能"。这是一个从"性能优化"到"韧性优化"的范式转换[1][2]。
另一个值得注意的信号:OpenAI选择通过OCP开放MRC规范,而非通过IEEE或IETF标准化。OCP的开放模式允许更快的迭代速度,同时MRC依赖SRv6静态源路由替代BGP等动态路由协议,这在传统网络工程看来几乎是异端。OpenAI的网络团队实际上在说:在十万卡AI训练集群中,动态路由是bug而非feature[1]。
二、Core Data at a Glance
| 维度 | MRC | 传统RoCEv2 | InfiniBand |
|---|---|---|---|
| 协议基础 | RoCE扩展 + UEC技术 + SRv6 | IBTA RoCEv2标准 | IBTA InfiniBand |
| 网络层次 | 2层(13万GPU)[1] | 3-4层 | 3-4层 |
| 单接口路径数 | 8平面 × 数百路径[1] | 1条(ECMP多路径) | 1条(ECMP多路径) |
| 负载均衡粒度 | 包级喷射 | 流级Hash | 流级Hash |
| 路由方式 | SRv6静态源路由[1] | BGP/OSPF动态路由 | OpenSM/IB路由 |
| 故障恢复 | μs级硬件绕行[3] | 秒级BGP收敛 | 秒级路由重算 |
| 拥塞应对 | 数据包修剪 + 路径自适应 | PFC/CNP拥塞通知 | ECN/CNP |
| 标准状态 | OCP开放规范[4] | IBTA标准 | IBTA标准 |
| 生态开放度 | 多厂商(NVIDIA/AMD/Broadcom/Intel)[1] | 开放以太网 | NVIDIA主导 |
三、技术演进线:InfiniBand → RoCE → UEC → MRC
AI训练网络协议的演进本质上是一场关于"谁控制路径选择权"的博弈。
InfiniBand时代(2012-2019):InfiniBand凭借原生RDMA能力和Subnet Manager集中路由,在HPC和早期AI训练中占据统治地位。其核心优势是硬件级可靠传输和低延迟,但代价是封闭生态——NVIDIA通过收购Mellanox获得了InfiniBand的生态控制权。在万卡规模以下,InfiniBand的集中路由和PFC流控机制基本够用,但扩展到更大规模时,OpenSM的路由重算延迟成为瓶颈[5]。
RoCEv2时代(2019-2023):RoCE(RDMA over Converged Ethernet)试图用以太网承载RDMA,通过DCQCN拥塞控制和PFC优先级流控实现无损传输。但RoCEv2继承了一个致命问题:ECMP流级Hash负载均衡。在AI训练的"AllReduce大象流"场景下,少量流承载海量数据,Hash碰撞导致严重的负载不均衡——约50%的链路承载了绝大部分流量,而另一半链路近乎空闲。这是RoCEv2在AI训练场景中网络利用率长期徘徊在50%上下的根本原因[6]。
UEC时代(2023-2025):Ultra Ethernet Consortium(UEC)由AMD、Broadcom、Intel、Meta、Microsoft等联合发起,目标是以太网原生支持AI工作负载。UEC的贡献在于定义了逐包负载均衡(Per-Packet Load Balancing)和改进的拥塞控制框架,为MRC的包喷射机制奠定了技术基础[1]。
MRC时代(2025-):OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA,在RoCE基础上吸收UEC技术,并引入SRv6静态源路由这一全新维度。MRC不是简单的协议升级,而是拓扑+传输+路由的三层联合设计——多平面拓扑提供路径冗余,包喷射提供负载均衡,SRv6提供确定性路由,三者协同才构成完整的解决方案[1][2]。
演进逻辑的本质
从InfiniBand到MRC的演进,本质上是路径选择权从网络中心化控制向端点分布式控制转移的过程。InfiniBand的OpenSM集中计算路径,RoCE依赖交换机本地Hash决策,而MRC将路径选择权完全交给发送端NIC——每个数据包的路径在发送时就已经确定,交换机只是按照嵌入的SRv6指令转发,无需任何路由决策。这一转移消除了所有"路由协议收敛"带来的延迟。
四、核心技术深度解析
4.1 多平面网络拓扑(Multi-Plane Network)
原理层——为什么这样设计?
传统Clos网络架构中,一个800Gb/s网卡接口连接到一台800Gb/s速率的交换机。64口800G交换机在网络边缘只能连接64个终端。要将13万个GPU全互联,需要3层甚至4层交换机级联——每一层级引入额外的延迟、功耗、故障点和成本[1]。
MRC的核心洞察是:AI训练的流量模式(集合通信的AllReduce/AllToAll)不需要所有GPU之间同时通信,而是分阶段、分组的密集通信。因此,网络设计不需要追求"每个GPU到每个其他GPU的800G直连带宽",而是需要"在任意时刻,任意通信模式都有足够的路径冗余"。
实现层——具体怎么实现?
MRC将一个800Gb/s网卡接口物理拆分为8个100Gb/s子接口,每个子接口连接到不同的物理交换机。这8台交换机构成一个独立的"平面"(plane),整个集群有8个完全独立并行的网络平面。以64口800G交换机为例:当每个端口降速到100G运行时,同一台交换机可以连接512个100G终端;两层交换即可覆盖 512 × 256 = 131,072 个GPU端口[1]。
量化层——具体数字与工程计算
假设64口800G交换机:
Leaf层:64 GPU/交换机
Agg层:每台Agg连接32台Leaf(端口各半上下行)
Core层:每台Core连接32台Agg
总GPU数 = 64 × 32 × 32 = 65,536(理论值,实际因端口分配更低)
MRC 2层多平面最大连接数:
64口800G交换机 → 降速为512口100G
Tier 0(每个平面):512 GPU / 平面
但每个平面只用部分端口连接Tier 1,假设各半上下行:
Tier 0每台连接 256个GPU + 256个上联端口
每平面可连:256 GPU × (256 Tier0/Tier1上行配对)
8平面总计 ≈ 131,072 GPU[1]
OpenAI在论文中明确给出这一数字:"about 131,000 GPUs with only two tiers of switches"[1]。作为对比,传统3层Clos在64口交换机下理论上限约6.5万GPU,且每增加一层,延迟增加约2-5μs(单跳光纤+交换转发),功耗增加约15-20%,故障点数量几乎翻倍。
对比层——与传统方案的工程权衡
| 指标 | 传统3层Clos (800G) | MRC 2层多平面 (8×100G) |
|---|---|---|
| 最大GPU数 | ~65,000 | ~131,000[1] |
| 交换层级数 | 3-4层 | 2层 |
| 单跳延迟 | ~2-5μs × 3-4跳 | ~2-5μs × 2跳 |
| 路径冗余 | 有限(同平面ECMP) | 8平面 × N路径 |
| 单链路故障影响 | 整条800G路径失效 | 仅损失1/8带宽 |
| 交换机总功耗 | 3层设备功耗 | 仅2层,更低 |
权衡在于:多平面架构需要更多的物理交换机数量(8倍于单平面),但由于每台交换机速率更低(100G vs 800G),单台交换机的成本和功耗显著降低。OpenAI指出,总成本反而更低[1]。
4.2 数据包喷射(Packet Spraying)
原理层——为什么需要包级喷射?
多平面网络提供了数百条可选路径,但传统的流级(flow-level)Hash负载均衡根本无法利用这些路径——AI训练的集合通信产生的是少量"大象流"(每条流携带GB级数据),Hash碰撞使流量集中在少数路径上,多平面拓扑的优势被完全浪费。OpenAI的博客直指这一问题:
OpenAI原文
"With single-path flows, like in a classic RoCE deployment, individual links frequently become congested. Because collective communications are sensitive to the worst-case latency, this is especially disruptive to AI training workloads."[1]
解读:"集合通信对最差情况延迟敏感"——这是理解MRC包喷射设计动机的钥匙。AllReduce操作的完成时间由最慢的那个GPU-to-GPU传输决定(木桶效应),因此网络性能不是由平均带宽决定,而是由最差情况延迟决定。传统ECMP的Hash碰撞制造了"最差路径",包喷射的目标是消除这种最差情况。
实现层——具体怎么实现?
MRC的包喷射机制在NIC硬件层面实现,而非交换机层面。发送端NIC将一个RDMA传输(比如一次4MB的AllReduce数据块)拆分为数百个小数据包,每个包独立选择一条路径发送。选择路径时考虑两个因素:路径的当前拥塞状态(通过遥测反馈),以及路径的平面归属(确保8个平面都被利用)。
每个数据包携带最终目标内存地址,接收端NIC按到达顺序直接将数据写入GPU内存(绕过CPU和操作系统),无需等待包按序到达。这一设计的核心前提是RDMA写入操作的幂等性——每个包写入的内存地址互不重叠,乱序写入不影响最终数据一致性[1][2]。
自适应路径切换是包喷射的关键配套机制。NIC持续监控每条路径的RTT(往返时延),当检测到某条路径的延迟异常升高时(表明拥塞或设备降级),立即停止向该路径发送新包,将流量转移到其他健康路径。这一决策在NIC硬件中完成,延迟在微秒级[1]。
丢包时的保守策略体现了MRC的设计哲学:当检测到丢包时,MRC不假设这是临时拥塞(传统拥塞控制会降速后重试),而是假设硬件可能已经损坏,立即停止使用该路径。同时,后台探测机制定期尝试恢复的路径,一旦确认恢复正常,重新加入喷射路径池[1]。
量化层——性能影响分析
T_ecmp ≈ N_active/N_total × B × (1 - P_collision)
其中 P_collision 为Hash碰撞概率
AI训练场景(少量大象流):T_ecmp ≈ 40-60%
MRC包喷射理论吞吐率:
T_spray = B × (1 - 1/N_paths) ≈ 99%+(N_paths → 数百)
实际约95-98%,受路径差异和遥测开销影响
对比层——与传统方案的差异
包喷射与传统的ECMP/DLB(Dynamic Load Balancing)存在本质区别。ECMP是流级Hash,不感知链路利用率;DLB虽然能基于队列深度动态调整,但仍然以流为粒度。MRC的包级喷射将粒度推到极致——每个包独立选路,理论上可以实现近乎完美的负载均衡。代价是接收端的乱序重组缓冲区开销和每个包的SRv6头部开销(约40-80字节/包),这在800G速率下的带宽占比不到1%[1]。
4.3 SRv6静态源路由(Static Source Routing)
原理层——为什么禁用动态路由?
这是MRC中最反传统的设计决策。在传统数据中心网络中,BGP/OSPF等动态路由协议是基础设施——它们自动发现拓扑变化、计算新路径、收敛到新路由表。但在十万卡AI训练集群中,动态路由反而成为问题来源[1]。
OpenAI在论文中解释了核心矛盾:
OpenAI论文观点
"Previously, a single failure would often cause a training job to crash, forcing a restart from a saved checkpoint, or stall progress for many seconds while the network recomputed routes."[1]
解读:"网络重新计算路由的许多秒"——BGP收敛在大型网络中通常需要数百毫秒到数秒。在同步训练中,这数秒意味着所有GPU空转等待。更严重的是,BGP收敛过程中的路由翻动(route flapping)会导致持续数秒的丢包和环路,对训练任务而言这等价于"网络不可用"。
SRv6(Segment Routing over IPv6)的静态源路由方案从根本上消除了这些问题。发送端NIC在每个数据包的IPv6扩展头部中嵌入沿途交换机的标识符,交换机只需按照嵌入的指令转发,无需查路由表,无需运行任何路由协议。
实现层——协议栈层面与数据包格式
SRv6在IPv6数据包中使用Segment Routing Header(SRH)扩展头部。每个Segment Identifier(SID)是一个128位IPv6地址,对应网络中的一个交换机或链路。MRC在部署时(configuration time)为每个GPU对之间的所有可能路径预计算SID序列,并写入NIC的路径表[1]。
数据包转发过程:
1. NIC选择一条路径,将对应的SID序列写入SRH
2. 交换机收到数据包,读取SRH中当前活跃的SID
3. 交换机查静态转发表(不是路由表),找到出端口
4. 转发到下一跳,更新SRH活跃SID指针
整个过程中,交换机不运行BGP、OSPF或任何动态路由协议。路径在配置时确定,运行时不变。这一设计的直接后果是:交换机的控制平面极其简单,只维护一张静态转发表,内存和CPU开销极低,设备成本下降[1]。
量化层——故障检测与绕行
OpenAI声称MRC实现了微秒级故障检测和绕行[1]。NVIDIA进一步确认:"failure bypass technology can — in just microseconds — detect a network path failure and reroute traffic automatically in hardware"[3]。这一速度的实现依赖两个机制:
- 硬件级路径监控:NIC持续发送探测包(probe),通过RTT变化检测路径故障,延迟在μs级
- 预计算备用路径:每条主路径都有多条预计算的备用路径存储在NIC中,故障时无需重新计算,直接切换
MRC SRv6故障绕行:T_mrc ≈ 1-10μs(硬件检测 + 备用路径切换)
加速比:T_bgp / T_mrc ≈ 10,000x - 1,000,000x
对比层——与动态路由的根本区别
SRv6静态源路由并非没有代价。最大的限制是灵活性:网络拓扑变化(如新增交换机、调整链路)时,需要重新配置所有受影响GPU对的路径表。但在AI训练集群中,网络拓扑在训练任务启动前确定,运行期间不会变化——这正是MRC可以禁用动态路由的前提条件。OpenAI选择"以不变应万变"的策略,用拓扑稳定性换取路由确定性和故障恢复速度。
4.4 数据包修剪(Packet Trimming)
原理层——为什么需要修剪?
数据包修剪是MRC四个核心机制中最容易被忽视、但工程上最精巧的一个。它要解决的核心矛盾是:如何区分"拥塞丢包"和"硬件故障丢包"[1]。
回顾4.2节提到的丢包策略——当检测到丢包时,MRC保守地假设硬件损坏,停止使用该路径。但如果丢包实际上是临时拥塞导致的(这在网络中很常见),那么停止使用一条健康的路径是不必要的性能损失。更严重的是,如果多条路径同时经历临时拥塞,MRC会依次停用这些路径,最终可能面临路径不足的困境。
实现层——具体怎么实现?
当交换机检测到某个出端口发生拥塞(队列深度超过阈值)时,它可以主动切掉数据包的有效载荷(payload),只保留头部(header),然后转发这个"被修剪"的数据包到接收端。接收端通过头部信息知道这个包的数据被丢弃了,触发重传请求(retransmit request)[1]。
这一机制的精巧之处在于:
- 避免了拥塞扩散:被拥塞的数据包不会继续占用交换机缓冲区和下游带宽
- 明确区分了拥塞和故障:接收端收到"被修剪"的包,知道这是拥塞导致的(不是硬件故障),因此不会停用该路径,只会触发该包的重传
- 降低了尾部延迟:拥塞的包不会被无限期缓冲,而是快速通知接收端"这个包丢了,请重传"
量化层——带宽节省与延迟优化
拥塞包被缓冲 → 队列深度增加 → 后续包排队 → PFC暂停帧 → 上游交换机缓冲耗尽
尾部延迟增加:ΔT ≈ Queue_depth / Link_rate
MRC修剪场景:
拥塞包被修剪 → 仅头部(~64B)转发 → 接收端触发精确重传
拥塞持续时间:仅单包重传延迟(~RTT)
路径不被停用(区别于丢包场景的保守策略)
对比层——与传统拥塞控制的差异
传统RoCEv2使用PFC(Priority Flow Control)实现无损传输——当交换机缓冲区快满时,发送PAUSE帧让上游停止发送。PFC的臭名昭著之处在于PFC风暴:一级一级的反压最终导致整条链路被暂停,形成"head-of-line blocking"效应。MRC的修剪机制从根本上绕过了PFC——与其暂停整条链路,不如精确丢弃单个包的有效载荷,让重传来处理[1]。
五、架构分析:组件分解与设计理念
MRC的架构可以分为三层组件,每层承担明确的责任边界:
第一层:NIC(网络接口卡)—— 智能端点
MRC将大量决策权下放到NIC。在MRC架构中,NIC负责:路径选择(包喷射)、SRv6头部封装、路径健康监控(RTT探测)、丢包检测与重传、数据包的内存直接写入。这意味着NIC必须是可编程的智能设备,而非简单的数据包收发器。目前支持MRC的NIC包括NVIDIA ConnectX SuperNIC系列、AMD Pensando Pollara 400/Vulcano 800G AI NIC[2][3]。
第二层:交换机 —— "哑"转发器
MRC架构中的交换机被刻意设计为"愚蠢"的——不运行路由协议,不做负载均衡决策,不做拥塞控制(除修剪外)。交换机的职责仅限于:按SRv6 SID查表转发、队列超阈值时修剪数据包、上报遥测信息。这种"智能端点、哑网络"的设计理念源自End-to-End Principle,但在AI超算网络中是首次大规模实践[1]。
第三层:控制平面 —— 部署时配置
MRC的控制平面在训练任务启动前运行一次,计算所有GPU对之间的SRv6路径,并写入各NIC的路径表。运行时,控制平面几乎不参与——除非网络拓扑发生物理变化(如新增设备)。这与传统网络的"持续运行BGP/OSPF"形成鲜明对比[1]。
设计理念:"Push complexity to the edge"
MRC的架构哲学可以概括为"将复杂性推到边缘"。传统网络中,交换机承担路由、负载均衡、拥塞控制等复杂功能;MRC将这些功能全部推到NIC和网络边缘,交换机退化为简单的转发器。这一哲学的直接收益是:交换机的故障模式极其简单——要么转发正确,要么不转发。没有路由协议导致的环路,没有ECMP Hash导致的不均衡,没有PFC导致的暂停风暴。简洁性本身就是可靠性。
六、竞争分析
6.1 MRC vs InfiniBand
InfiniBand是AI训练网络的事实标准,但它的统治地位正被MRC这类以太网方案侵蚀。核心差异在于:
| 维度 | InfiniBand (NDR/XDR) | MRC over Ethernet |
|---|---|---|
| 供应商锁定 | NVIDIA独家 | 多厂商开放 |
| 路由方式 | OpenSM集中路由(秒级收敛) | SRv6静态路由(μs级绕行) |
| 负载均衡 | 流级Hash | 包级喷射 |
| 单链路速率 | 400G NDR / 800G XDR | 800G(拆为8×100G) |
| 故障容错 | 有限(依赖路由重算) | 1/8链路故障仅损失1/8带宽 |
| 成本结构 | 高(垄断溢价) | 更低(以太网商品化) |
| 成熟度 | 高度成熟 | 生产验证中(GB200部署) |
判断:InfiniBand在延迟和成熟度上仍有优势,但MRC在超大规模(10万+ GPU)场景下的架构优势(2层vs3-4层、μs级故障恢复vs秒级路由收敛、多厂商生态vs单一供应商)是结构性的。NVIDIA内部也认识到了这一趋势——Spectrum-X以太网平台积极支持MRC,某种意义上是在为"以太网替代InfiniBand"做准备[3]。
6.2 MRC vs 传统RoCE
传统RoCEv2是MRC的直接前身。MRC在RoCE基础上增加了多平面感知、包喷射、SRv6源路由和包修剪四个维度。传统RoCE的流级Hash负载均衡在AI训练场景下是公认的瓶颈——约50%的网络利用率[6]。MRC通过包级喷射将这一数字推到95%+。但MRC要求新一代800G可编程NIC和支持SRv6的交换机,这比传统RoCE的硬件要求更高。
6.3 MRC vs ZCube
智谱ZCube(GLM-4-0414论文中提出)和MRC代表了AI集群网络优化的两种不同路径:
| 维度 | MRC | ZCube |
|---|---|---|
| 优化层面 | 网络拓扑+协议 | 组网架构(同Rack通信) |
| 目标场景 | 10万+ GPU训练 | 推理/PD分离 |
| 硬件要求 | 800G MRC NIC + SRv6交换机 | 不换硬件 |
| 核心创新 | 多平面+包喷射+SRv6 | 同机架内高速互联 |
| 标准状态 | OCP开放规范[4] | SIGCOMM论文 |
判断:MRC和ZCube并不直接竞争——MRC解决跨机架的大规模训练网络问题,ZCube解决机架内的推理效率问题。但两者共同指向一个趋势:通用网络架构正在被AI专用网络架构替代。
七、工程挑战与局限
1. 硬件依赖门槛高。MRC需要新一代800G可编程NIC来执行包喷射、SRv6封装和路径健康监控。目前支持MRC的NIC仅限于NVIDIA ConnectX SuperNIC和AMD Pensando系列[2][3]。已部署的传统RoCE NIC无法通过固件升级支持MRC——包喷射和SRv6需要NIC硬件层面的深度支持。这意味着MRC的采用与GPU服务器换代周期绑定。
2. SRv6头部开销。每个数据包需要额外携带40-80字节的SRv6扩展头部。在100G子接口速率下,假设平均数据包大小1500字节,SRv6开销占比约2.7-5.3%。对于小包(如控制消息),开销占比更高。OpenAI选择将这一开销视为可接受的代价[1]。
3. 静态路由的运维局限。SRv6静态路由意味着网络拓扑变化时需要重新配置路径表。在AI训练集群中这不是问题(拓扑在训练前固定),但如果MRC被推广到更通用的数据中心场景(如云服务多租户环境),静态路由的运维成本将成为瓶颈。MRC目前的设计明确面向单一训练任务独占的专用集群。
4. 多平面布线复杂度。8个独立平面意味着8倍的交换机数量和8倍的布线。虽然总成本可能低于传统方案,但物理部署的复杂度——8台交换机需要从每个服务器机架拉线——对数据中心基础设施提出了新的要求。
5. 生态系统早期阶段。MRC在2026年5月才通过OCP正式发布规范[4],目前的生产部署仅限于OpenAI的GB200超算(OCI Abilene + MS Fairwater)[1]。Broadcom和Intel的交换芯片支持仍在大规模验证阶段。从规范发布到广泛的商业产品支持,通常需要12-18个月。
6. 包级乱序的CPU/GPU开销。虽然RDMA写入本身可以乱序,但某些集合通信库的实现对包序有隐含假设。MRC的包喷射需要与集合通信库(如NCCL、RCCL)深度集成,确保乱序到达不会破坏上层逻辑。OpenAI和NVIDIA的合作在这一集成上投入了大量工程资源[3]。
八、产业落地与生态
8.1 六家联合开发厂商:各有所长
MRC不是OpenAI闭门造车的产物。从SIGCOMM论文的作者列表可以看出,这是一个跨越两年、六家厂商深度协作的工程成果[1][6]。每家厂商在MRC生态中扮演不同角色:
| 厂商 | 角色定位 | 核心贡献 |
|---|---|---|
| OpenAI | 需求定义 + 规范驱动 | 提出多平面架构设计,主导规范制定,率先在所有最大超算上生产部署,贡献OCP规范[1] |
| NVIDIA | 全栈硬件平台 | Spectrum-X以太网交换机率先支持MRC;ConnectX SuperNIC实现包喷射和SRv6硬件卸载;NCCL集合通信库集成MRC路径管理[3] |
| Broadcom | 交换芯片核心 | Jericho3-AI系列交换芯片原生支持SRv6转发和数据包修剪;作为最大以太网交换芯片供应商,Broadcom的支持意味着MRC可覆盖绝大多数白盒交换机[5] |
| AMD | GPU + 智能网卡 | Pensando Pollara 400 / Vulcano 800G AI NIC实现MRC的NIC侧逻辑;AMD GPU(Instinct系列)通过Pensando DPU原生接入MRC网络[2] |
| Intel | 芯片互操作 + 规范制定 | 参与MRC规范的技术评审和互操作性验证,确保MRC在Intel Gaudi GPU和Intel交换芯片上的兼容性[1] |
| Microsoft | 超算运营验证 | Fairwater超算作为首个非OpenAI的MRC生产部署,验证了MRC在第三方环境下的可行性;Azure网络团队贡献了大规模运维经验[7] |
这六家厂商的联合本身就是一个信号:AI训练网络的问题已经大到没有任何单一厂商可以独立解决。NVIDIA虽然掌握InfiniBand生态,但同时也通过Spectrum-X积极布局以太网——它不是在赌MRC会成功,而是在确保无论哪种方案胜出,NVIDIA都有硬件产品对应[3]。
8.2 生产部署:三个超算先行
截至2026年5月,MRC已确认部署在三个超算环境中:
OpenAI自有超算集群。OpenAI官方博客明确表示"MRC is already deployed across all of OpenAI's largest supercomputers"[1]。这是MRC的主战场——所有前沿模型(包括GPT系列)的训练流量已经跑在MRC网络上。OpenAI的部署经验构成了SIGCOMM论文中大部分实测数据的来源。
Microsoft Fairwater AI工厂。Microsoft在博客中详细描述了Fairwater超算的MRC部署,定位为"AI工厂"——专门用于训练前沿大语言模型的基础设施[7]。Fairwater的部署验证了一个关键假设:MRC不仅适用于OpenAI的定制化环境,也能在Microsoft Azure的运维体系下稳定运行。
OCI Abilene(Stargate超算)。Oracle Cloud Infrastructure在德克萨斯州Abilene建造的Stargate超算采用MRC组网[8]。Oracle的博客从"第一性原理"角度分析了MRC的设计选择,表明Oracle将MRC视为长期战略投资而非短期技术尝试。
部署格局的信号
三个部署方恰好代表了AI训练基础设施的三种模式:自建(OpenAI)、云服务商自用(Microsoft)、云服务商出租(OCI)。覆盖这三种模式意味着MRC不是为单一场景优化的定制方案,而是具备通用性的基础设施技术。
8.3 开源与标准化
MRC规范已正式提交给OCP(Open Compute Project)作为开放标准发布[4]。OCP的开放模式意味着:
- 任何厂商可以基于规范实现MRC,无需专利授权费
- 规范在OCP社区公开评审和迭代,而非封闭的委员会流程
- 与OCP已有项目(如开放网络交换机规范)形成协同
选择OCP而非IEEE/IETF是一个务实的决策。IEEE 802.3的以太网标准迭代周期通常以年计,IETF的RFC流程同样漫长。AI训练网络的需求变化速度远快于传统标准化组织的节奏——MRC从概念到生产部署仅用了两年[1]。OCP的模式允许快速迭代,同时通过开放规范保证多厂商互操作性。
8.4 业界评价
Futurum Research的评价直指核心:"MRC可能重新定义AI训练的经济学"——这一判断的底层逻辑是,MRC用以太网商品化硬件替代了InfiniBand的垄断溢价,同时提供了更优的架构特性。如果MRC大规模普及,AI训练的网络成本占比可能从当前的15-25%下降到8-12%。
HPCwire的报道重点放在NVIDIA Spectrum-X + MRC的部署上,将其定位为"以太网在HPC/AI领域的标志性突破"——HPC领域长期被InfiniBand统治,以太网方案的突破对行业格局的影响是深远的。
社区观点则更加务实。一个反复出现的讨论是:NVIDIA一边支持MRC(开放标准表面),一边继续大力推广InfiniBand(封闭生态底层),这是否意味着NVIDIA在"两面下注"?从商业策略看,这并不矛盾——NVIDIA的目标是确保无论客户选择哪种网络方案,都需要购买NVIDIA的硬件。Spectrum-X以太网和InfiniBand分别对应不同的客户需求和规模层级[3]。
8.5 生态合作格局
MRC的生态版图可以用一个简单的维度来理解:谁控制了NIC,谁就控制了MRC的入口。目前NIC侧由NVIDIA(ConnectX SuperNIC)和AMD(Pensando)双雄对峙,交换芯片侧由Broadcom主导(Jericho3-AI),Intel作为第三极提供互操作性保障。OpenAI提供需求定义和规范,Microsoft和OCI提供生产验证场景。
格局中的缺席者同样值得关注:华为、思科、Arista等传统网络巨头尚未公开宣布MRC支持。如果这些厂商加入,MRC的覆盖面将显著扩大。另一方面,UEC(Ultra Ethernet Consortium)的走向与MRC高度相关——MRC已生产部署而UEC仍在标准制定阶段,如果UEC最终采纳MRC作为其传输层标准,MRC将从"OpenAI方案"升级为"行业通用标准"[1]。
九、结论
结论一:MRC代表AI网络从"追求峰值"到"追求可预测性"的范式转换。在同步训练中,网络的性能由最差情况决定,而非平均情况。MRC通过多平面拓扑、包级喷射和静态源路由的联合设计,系统性地消除了"最差情况"的来源——Hash碰撞、路由收敛、PFC风暴。这不是增量优化,而是设计范式的转换[1]。
结论二:MRC的产业落地已进入实质阶段。六家厂商联合开发、三个超算生产部署、OCP开放规范发布——MRC不是停留在论文里的学术方案。NVIDIA和AMD在NIC层面的竞争、Broadcom在交换芯片层面的支持、Microsoft和OCI在生产环境的验证,共同构成了一条从规范到产品的完整路径。MRC需要整个以太网生态——从NIC到交换机到集合通信库——形成紧密集成,这条路径正在被快速铺设[3][5]。
结论三:MRC的最大意义不是协议本身,而是打破了"InfiniBand不可替代"的行业认知。当OpenAI——全球最大的AI训练算力消费者之一——在所有最大的超算上部署MRC over Ethernet而非InfiniBand时,这是一个强烈的信号:以太网可以在AI训练的核心场景中与InfiniBand竞争甚至胜出。这一认知转变将影响未来3-5年AI基础设施的采购决策[1][3]。
参考来源
- [1] Supercomputer networking to accelerate large scale AI training — OpenAI官方博客,2026-05-22
- [2] AMD and OpenAI Advance AI Networking at Scale with MRC — AMD官方博客,2026-05-22
- [3] NVIDIA Spectrum-X Ethernet Sets the Standard for Gigascale AI, Now With MRC — NVIDIA官方博客,2026-05-22
- [4] OCP MRC 1.0 Specification — Open Compute Project,2026-05-22
- [5] Enabling AI Networking @ Scale with MRC — Broadcom官方博客,2026-05-22
- [6] Resilient AI Supercomputer Networking using MRC and SRv6 — OpenAI技术论文,2026-05-22
- [7] Building Resilient Networks for AI Supercomputers — Microsoft Azure博客,2026-05-22
- [8] First Principles: Multipath Reliable Connection — Oracle Cloud Infrastructure博客,2026