GPU互联技术深度分析:NVLink、UALink、CXL与灵衢全景解读

芒果虾 2026年5月15日 阅读约30分钟

一、为什么GPU互联成为AI算力的核心瓶颈

当GPT-4级别的万亿参数大模型进行训练时,模型参数需要分布在数千张GPU上。每一步前向传播和反向传播,GPU之间必须同步海量梯度数据。如果互联带宽不足,GPU就只能等待数据传输完成——这就是所谓的"通信墙"。在典型的8卡训练场景中,通信时间可能占到总训练时间的30%至50%[1]

问题的本质可以用一个简单的公式描述:当模型参数量 P 增大时,每步梯度同步所需的数据量约为 4P 字节(FP32精度下)。对于GPT-4级别的1.8万亿参数模型,每步梯度同步需要传输约7.2TB数据。如果使用PCIe Gen5 x16(理论双向带宽128GB/s),仅一次同步就需要约56秒——这显然不可接受。而NVLink 5的1.8TB/s带宽将这个时间压缩到约4秒,这就是为什么GPU互联技术已经成为决定AI算力天花板的关键因素[2]

更深层的问题在于AI训练的并行策略。张量并行(Tensor Parallelism)要求在每一层神经网络计算后都进行全规约(All-Reduce)操作,通信频率极高,对带宽和延迟都极度敏感。数据并行(Data Parallelism)的通信频率较低但每次数据量大。流水线并行(Pipeline Parallelism)则对点对点延迟敏感。不同的并行策略对互联技术的需求截然不同,这也解释了为什么AI基础设施需要分层的互联架构[3]

1.8 TB/s
NVLink 5 单GPU带宽
14x
NVLink 5 vs PCIe Gen5
130 TB/s
GB200 NVL72 聚合带宽
576
NVLink 最大GPU域

二、PCIe:通用互联的基线与天花板

PCI Express(PCIe)是GPU互联的起点,也是最广泛使用的通用高速互联标准。自2003年PCIe 1.0发布以来,经过20年的演进,PCIe已经从2.5GT/s发展到PCIe 6.0的64GT/s[4]。每一代PCIe都将单通道带宽翻倍,但PCIe的设计初衷是通用的CPU-外设互联,而非GPU间的高速数据交换。

PCIe采用分层协议架构:事务层(Transaction Layer)、数据链路层(Data Link Layer)和物理层(Physical Layer)。每一层都引入了开销——TLP头部、DLLP校验、训练序列等。对于GPU间的大块数据传输,这些协议开销在总带宽中占比不大;但对于AI训练中常见的小包高频通信模式(如梯度同步中的元数据交换),协议效率会显著下降。PCIe的树形拓扑结构也限制了直接的GPU-GPU通信——数据必须经过CPU或PCIe交换芯片中转,增加了延迟[5]

从带宽角度看,PCIe Gen5 x16提供理论双向带宽128GB/s(64GB/s单向),而NVLink 5提供1.8TB/s——差距达14倍。这并非PCIe技术落后,而是设计目标的根本差异:PCIe追求通用性和生态兼容性,必须支持从NVMe SSD到网卡到GPU的所有设备;NVLink则专注于GPU间的一点对多点高速直连。PCIe 6.0引入了PAM4调制,将单通道带宽提升至8GB/s(双向),但即便是PCIe 6.0 x16的256GB/s双向带宽,仍远低于NVLink 5[6]

标准单通道速率x16 双向带宽延迟拓扑适用场景
PCIe Gen432 GT/s64 GB/s~500ns树形通用IO
PCIe Gen532 GT/s128 GB/s~300ns树形通用IO
PCIe Gen664 GT/s (PAM4)256 GB/s~250ns树形/交换通用IO
NVLink 450 GB/s/链路900 GB/s (18链路)~90ns全互联GPU-GPU
NVLink 5100 GB/s/链路1.8 TB/s (18链路)~90ns全互联GPU-GPU
NVLink 6100 GB/s/链路3.6 TB/s (36链路)~80ns全互联GPU-GPU

三、NVLink:英伟达的互联霸权

NVLink是英伟达于2014年首次公布的GPU专用互联协议,2016年在Pascal架构的Tesla P100上首次商用。与PCIe的树形拓扑不同,NVLink从设计之初就面向GPU间的全互联(Full Mesh)通信[7]

物理层原理。NVLink采用差分信号传输技术,每个链路由多对差分信号线组成。SerDes模块是NVLink物理层的核心——将并行数据转换为高速串行流,接收端进行反向转换。NVLink的SerDes设计采用时钟数据恢复(CDR)技术,以及集成复杂的自适应均衡电路来补偿信道损耗。从NVLink 4到NVLink 5,单链路速率从50GB/s提升到100GB/s,主要通过提升信号速率实现,而非增加通道数[8]

协议栈设计。NVLink的协议栈专为GPU间数据同步优化。链路层定义了数据符号、控制符号和填充符号,实现精细的信用机制(Credit-based Flow Control),支持不同优先级的流量调度。协议层支持原子操作和缓存一致性,使得GPU可以直接操作远程GPU内存中的数据,而无需CPU介入[9]。这种设计的关键优势在于:当进行All-Reduce操作时,GPU可以通过NVLink直接读取和更新其他GPU的内存,省去了"先拷贝到本地再计算"的额外步骤。

代际演进。第一代NVLink(Volta V100,2018)提供6条链路、300GB/s带宽。第二代(Ampere A100,2020)扩展到12条链路、600GB/s。第三代(Hopper H100,2022)维持18条链路但单链路提升至50GB/s,总带宽900GB/s。第四代(Blackwell B200,2024)将单链路带宽翻倍至100GB/s,总带宽1.8TB/s。第六代(Rubin,2026年1月发布)将链路数扩展至36条,总带宽3.6TB/s。从第一代到第六代,NVLink实现了12倍的带宽提升[10]

代次年份架构链路数单链路带宽单GPU总带宽最大域规模
NVLink 12018Volta V100650 GB/s300 GB/s16 GPU
NVLink 22020Ampere A1001250 GB/s600 GB/s16 GPU
NVLink 32022Hopper H1001850 GB/s900 GB/s256 GPU
NVLink 4/52024Blackwell B20018100 GB/s1.8 TB/s576 GPU
NVLink 62026Rubin R20036100 GB/s3.6 TB/s576+ GPU

四、NVSwitch:从服务器内互联到机架级交换

NVLink的全互联能力依赖NVSwitch芯片。当系统中的GPU数量增加时,点对点连接的复杂度呈平方级增长(N个GPU需要N(N-1)/2条链路),物理上不可实现。NVSwitch作为专用的NVLink交叉开关,解决了这个扩展性问题[11]

第一代NVSwitch(2018)随DGX-2推出,采用台积电12nm工艺,每芯片18个NVLink端口,聚合交换容量900GB/s,功耗约100W,包含20亿个晶体管。16个V100 GPU通过NVSwitch实现全互联[12]

第三代NVSwitch(Hopper,2022)将每芯片双向带宽提升至25.6Tb/s。更重要的是,引入了SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)网内计算功能——NVSwitch可以在交换芯片内部直接执行Reduce操作,跨多个GPU聚合结果无需将数据发送回GPU再返回。对于All-Reduce操作,SHARP可以将通信量减少一半以上[13]

第四代NVSwitch(Blackwell,2024)是最具革命性的一代。每芯片具有72个NVLink 5.0端口,NVLink 5 Switch提供144个端口、14.4TB/s无阻塞交换容量。关键创新是机架级交换——NVSwitch从服务器内部移到了专用的交换托盘。GB200 NVL72系统中,18个计算托盘的72个Blackwell GPU通过9个交换托盘中的18个NVSwitch芯片实现全网状连接[14]。所有72个GPU从连接角度看完全等效——任何GPU都可以以相同的带宽和延迟与其他任何GPU通信。

第六代NVSwitch(Rubin,2026)将单GPU互联带宽从1.8TB/s提升至3.6TB/s,在VR200 NVL72系统中提供260TB/s聚合带宽。Scale-out层面,Spectrum-6交换机支持CPO(共封装光学)技术,将32个1.6Tb/s硅光光学引擎与交换芯片直接封装集成[15]

关键洞察:从"加速器互联"到"机架即计算机"

GB200 NVL72代表了AI基础设施设计哲学的根本转变:72个GPU不再被视为72个独立设备的集群,而是一台"大计算机"。130TB/s的聚合NVLink带宽使整个机架可以执行张量并行——模型权重分布在整个域内,通信开销最小化。这台"大计算机"拥有145KW功耗、1.36吨重量,需要液冷散热。部署GB200 NVL72不再是服务器的运维问题,而是数据中心的建筑工程问题[16]

五、CXL:开放标准的异构互联

Compute Express Link(CXL)是PCI-SIG推出的开放标准,运行在PCIe物理层之上,但增加了缓存一致性、内存语义和内存池化能力。CXL 1.0/1.1于2019年发布,目前已演进到CXL 3.1[17]

CXL定义了三种设备类型:Type 1(主机端缓存设备,如智能网卡)、Type 2(带缓存的加速器,如GPU/DPU)和Type 3(内存扩展设备,如CXL内存模块)。其中Type 2最接近GPU互联场景——CXL允许CPU和GPU共享一致的内存视图,GPU可以直接访问CPU管理的内存而不需要显式的数据拷贝[18]

CXL 3.0引入了多级交换和全局内存池化。CXL Switch可以连接多个主机和多个设备,实现真正的内存池化——多台服务器共享一个巨大的CXL内存池。CXL 3.1进一步增强了内存共享和一致性协议的灵活性。然而,CXL的根本局限在于它运行在PCIe物理层之上,带宽受限于PCIe通道数。PCIe Gen5 x16的理论带宽为128GB/s(双向),远低于NVLink 5的1.8TB/s[19]

CXL的核心价值不在于替代NVLink,而在于解决异构计算中的内存一致性问题。在CPU-GPU协同场景中,CXL允许GPU以缓存一致的方式访问系统内存,消除了传统DMA传输的拷贝开销。这使得"内存语义"编程模型成为可能——GPU可以像访问本地内存一样访问远程内存,只是延迟更高。AMD的MI300X就是一个典型案例:CPU和GPU通过Infinity Fabric(基于CXL协议)共享统一内存空间[20]

特性CXL 2.0CXL 3.0/3.1关键意义
交换层级单级多级支持更大规模的内存拓扑
内存池化单主机多主机共享多服务器共享CXL内存池
一致性域2节点多节点更多设备可参与一致性协议
物理层PCIe Gen5PCIe Gen5/6带宽受限于PCIe通道数
典型带宽64 GB/s (x16)128 GB/s (x16)远低于NVLink

六、UALink:开放联盟挑战NVLink

2024年10月,AMD、Broadcom、Google、Intel、Cisco、HPE、Meta、Microsoft、Arista等9家企业联合发起成立UALink联盟,成员数已扩展至60多家(包括阿里云、苹果等)。2025年4月,UALink 1.0规范正式发布[21]

UALink的定位是开放行业标准的AI加速器互联技术,核心解决大规模模型训练/推理中多加速器协同的需求。UALink 1.0支持每通道200 GT/s的传输速率,可在单个计算集群中连接多达1024个加速器[22]

协议栈设计。UALink采用分层协议栈:物理层复用高速SerDes通道;链路层提供可靠传输和流量控制;协议层支持内存语义(Load/Store)和消息语义(Put/Get);事务层支持原子操作和缓存一致性。这种分层设计使得UALink可以同时支持GPU-GPU直连和通过交换芯片的多跳通信[23]

与NVLink的关键差异。NVLink是英伟达专有的封闭生态,只有NVIDIA GPU可以参与NVLink互联。UALink作为开放标准,允许不同厂商的加速器(AMD GPU、Intel GPU、Google TPU等)通过统一的协议互联。但在性能层面,NVLink 5的1.8TB/s仍然领先UALink 1.0的预期带宽。AMD的MI350X仍延续上代UBB 8xGPU设计,真正的UALink大规模部署要等到2026年的Helios架构MI400系列72-GPU Rack[24]

Ultra Ethernet Consortium(UEC)是另一个相关的开放标准组织,聚焦于Scale-out层面的以太网优化。UEC的目标不是替代NVLink/UALink的Scale-up互联,而是在以太网上实现接近InfiniBand的性能,用于机架间的横向扩展。UALink(Scale-up)+ UEC(Scale-out)构成了挑战NVIDIA NVLink + InfiniBand组合的开放替代方案[25]

七、华为灵衢(UB):国产超节点互联方案

华为选择了一条完全不同的技术路径。2025年9月的华为全联接大会上,华为正式发布"灵衢"(UnifiedBus,简称UB)互联协议,这是一套专为超节点设计的新型互联协议[26]

灵衢的核心特征。灵衢协议的设计目标是让万卡级超节点"像一台计算机一样工作"。华为总结的六大特征包括:总线级互联(非网络级互联)、平等协同(所有计算卡对等)、全量池化(内存/SSD/DPU可池化)、协议归一(统一协议栈)、大规模组网、高可用性[27]

灵衢1.0与Atlas 900。灵衢1.0已在2025年3月交付的Atlas 900超节点中商用部署,支持384颗昇腾910C芯片全互联,最大算力300 PFLOPS。截至2025年9月,已累计部署超过300套[28]

灵衢2.0与Atlas 950。基于灵衢2.0的Atlas 950超节点最大支持8192张昇腾950DT卡。华为宣称其互联带宽达16.3PB/s,是英伟达NVL144的62倍。该系统内存容量达1152TB,FP8总算力达524 EFLOPS(集群模式)[29]

UB-Mesh拓扑。华为发布的技术论文描述了UB-Mesh——一种分层本地化的nD-FullMesh数据中心网络架构。其核心思路是通过层级化的全网格拓扑减少跳数和光模块用量,结合全路径路由(APR)和拓扑感知并行优化,实现98%的高基数交换机减少和93%的光模块减少,同时保持95%以上的LLM训练线性扩展率[30]

灵衢2.0规范开放。华为宣布开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件。这标志着灵衢从华为私有技术向开放生态转变,与UALink的开放策略形成呼应[31]

关键洞察:NVLink vs 灵衢的设计哲学差异

NVLink的演进路径是"更快的链路"——通过提升SerDes速率(50→100GB/s)和增加链路数(18→36)来获得更高带宽。灵衢的演进路径是"更大的域"——通过nD-FullMesh拓扑减少跳数,在可获得的工艺条件下实现万卡级全互联。NVLink追求极致的点对点性能,灵衢追求极致的系统规模。这反映了两种不同的约束条件:NVIDIA有台积电先进工艺支持,可以制造更高速的SerDes;华为需要在非先进工艺条件下通过架构创新弥补。

八、互联技术全景对比

维度NVLink 5UALink 1.0CXL 3.1灵衢 2.0
定位GPU-GPU直连开放加速器互联异构内存一致超节点总线互联
开放性封闭(NVIDIA专用)开放标准开放标准规范已开放
单GPU带宽1.8 TB/s~200 GB/s(推测)128 GB/s (PCIe x16)2 TB/s (950DT)
延迟~90ns~200ns(推测)~250ns~2.1μs(系统级)
最大域576 GPU1024 加速器多节点8192 NPU
缓存一致性支持支持核心特性支持
物理介质铜缆(NVL72)SerDesPCIe通道电+光混合
代表产品GB200 NVL72MI400 (2026H2)Intel Xeon + CXLAtlas 950
生态成熟度高度成熟规范刚发布逐步部署300+套已部署

九、Scale-up与Scale-out的分层架构

现代AI基础设施采用分层的互联架构:NVLink/UALink/灵衢负责Scale-up(纵向扩展,机架内),InfiniBand/RoCE/以太网负责Scale-out(横向扩展,机架间)。这两层的分工不是任意的——它们对应了不同的并行策略和通信模式[32]

Scale-up层(NVLink域内)处理张量并行和序列并行。这些并行策略要求极高的带宽(TB/s级)和极低的延迟(亚微秒级),因为通信发生在每一层神经网络计算之后。NVLink每GPU 1.8TB/s的带宽确保了这种同步不会成为瓶颈。在GB200 NVL72中,72个GPU的NVLink域聚合带宽达130TB/s[33]

Scale-out层(InfiniBand/以太网)处理数据并行。每个GPU托盘包含800Gb/s的RDMA网卡用于机架间通信。InfiniBand仍然是大规模AI训练的黄金标准,连接着全球270多台顶级超级计算机。但以太网正在追赶——NVIDIA的Spectrum-X以太网方案可以实现95%的有效吞吐量,而标准以太网只能达到60%[34]

SuperPOD架构。NVLink Switch支持576个GPU组成无阻塞计算架构(8个GB200 NVL72机架),总带宽超过1PB/s,快速内存达240TB。576 GPU域在所有机架中保持全连接的NVLink拓扑——任何GPU都可以以1.8TB/s的速度与其他任何GPU通信,无需穿越Scale-out网络[35]

十、工程挑战与物理限制

信号完整性。NVLink 5的100GB/s单链路速率对信号完整性提出了极高要求。差分信号在铜缆中传输时,信号衰减和码间干扰随距离急剧增加。GB200 NVL72使用铜缆背板连接72个GPU和18个NVSwitch,铜缆长度限制在约1米以内。更长的距离需要转向光学互联,但光模块的成本和功耗远高于铜缆。NVIDIA的Rubin架构引入CPO(共封装光学),将硅光引擎与交换芯片直接封装,试图解决这个矛盾[36]

功耗与散热。GB200 NVL72的功耗达145KW,需要液冷散热。NVSwitch芯片本身的功耗也随代际显著增加——第四代NVSwitch的功耗远超第一代的100W。散热不仅仅是"降温"的问题——芯片温度每升高10°C,可靠性约降低50%。在高密度机柜中,散热设计直接决定了系统的稳定性[37]

可靠性与可用性。当576个GPU组成一个NVLink域时,任何一个GPU或NVSwitch故障都可能影响整个域。NVIDIA的MNNVL(Multi-Node NVLink)架构引入了Kubernetes层面的容错机制——使用GPU Operator 25.3的动态资源分配(DRA)驱动程序和Pod亲和性规则,将工作负载调度到健康的NVLink拓扑上[38]。华为灵衢则在协议每一层引入高可靠机制,在光路引入百纳秒级故障检测和保护切换,宣称光互联可靠性提升100倍[39]

成本。GB200 NVL72的部署不仅是硬件成本问题。液冷基础设施、机房改造(承重1.36吨/机柜)、高压供电(145KW/机柜)都需要巨大的前期投入。这也是为什么华为强调灵衢架构可以减少98%高基数交换机和93%光模块——在非先进工艺条件下,通过架构优化降低系统总成本是关键的差异化策略[40]

十一、技术演进趋势

趋势一:光互联替代铜缆。NVLink从Blackwell的铜缆背板向Rubin的CPO光学互联演进,是不可避免的物理规律驱动。铜缆在100GB/s以上的信号衰减使得长距离传输变得不现实,而光互联的成本正在快速下降。预计到2028年,主流AI超节点将全面转向光学互联,机架间NVLink也将成为可能[41]

趋势二:开放标准挑战封闭生态。UALink + UEC的组合正在构建一个不依赖NVIDIA的开放互联生态。AMD MI400、Intel Falcon Shores等新一代加速器都将支持UALink。开放生态的挑战在于:互联性能需要实际硅片验证,软件栈和工具链需要时间成熟。但开放的力量不容忽视——正如PCIe当年替代了各种专有IO总线[42]

趋势三:超节点规模持续膨胀。从8卡(DGX H100)到72卡(GB200 NVL72)到576卡(SuperPOD)到8192卡(Atlas 950)再到15488卡(Atlas 960规划),超节点的规模正在以指数级增长。驱动这一趋势的根本原因是大模型训练对内存容量和互联带宽的指数级需求——万亿参数模型仅权重就需要约2TB内存,而训练过程中的激活值、梯度、优化器状态还需要数倍于此的内存[43]

趋势四:内存池化与可组合架构。CXL 3.1的多主机内存池化和灵衢的全量池化指向同一个方向:打破GPU与本地内存的绑定关系,让所有计算资源共享一个巨大的内存池。这将从根本上改变AI计算的资源调度方式——不再是"给每个GPU分配固定内存",而是"按需动态分配"。但这需要解决内存一致性的性能开销和池化管理软件的复杂性[44]

十二、结论

GPU互联技术已经从AI系统的"配角"变成"主角"。当单卡算力增长遇到物理极限时,互联带宽和延迟成为决定系统级算力的关键变量。NVLink 5以1.8TB/s的带宽建立了当前的性能标杆,但其封闭生态正在被UALink开放联盟挑战。CXL在异构内存一致性方面找到了独特定位。华为灵衢则以万卡级超节点互联为目标,在非先进工艺条件下通过架构创新实现了规模化突破。

对于AI基础设施的决策者而言,选择互联技术本质上是选择生态和路线:选择NVLink意味着全NVIDIA生态的深度绑定,但获得最成熟的性能和软件支持;选择UALink意味着拥抱开放生态但需要等待生态成熟;选择灵衢意味着拥抱国产化路线。无论选择哪条路线,理解互联技术的物理限制和工程权衡,都是做出正确决策的基础。

参考来源