Atlas 950 SuperPoD超节点与灵衢互联技术深度解析

2026-03 · 深度分析 · 阅读约8分钟

一、Atlas 950 SuperPoD架构总览

Atlas 950 SuperPoD是华为基于Ascend 950系列芯片打造的新一代AI超节点计算平台，最早在MWC 2026面向全球发布，本次合作伙伴大会面向国内生态伙伴进行了全面展示^[1]。该系统最大支持8192张Ascend AI加速卡互联，构成一个统一的计算资源池，专门面向万亿参数大模型训练和大规模推理场景。

从系统架构层面看，Atlas 950 SuperPoD并非简单的服务器堆叠，而是通过灵衢2.0（Lingqu 2.0）高速互联协议将计算、存储、网络深度融合的超节点系统。其设计理念是"Scale-up优先"：在一个超节点内部实现尽可能大的计算规模和尽可能高的互联带宽，从而减少跨超节点的通信开销，提升大模型训练的整体效率。

在物理形态上，Atlas 950 SuperPoD采用模块化设计，以机柜为基本单元，每个机柜包含多台Atlas 950服务器节点，通过灵衢交换模块实现柜内高速互联。多个机柜之间再通过灵衢骨干互联网络级联，从单机柜的数十卡扩展到最大8192卡的完整超节点。这种两级互联架构兼顾了扩展性与性能，允许用户根据实际需求从中小规模起步，逐步扩展到满配。

二、Ascend 950系列芯片规格

Atlas 950 SuperPoD的核心算力来源于Ascend 950系列芯片，该系列包含面向训练的Ascend 950DT（Da Vinci Training）和面向推理的Ascend 950PR（Production Reasoning）两个主要型号^[1]。

规格项	Ascend 950DT（训练）	Ascend 950PR（推理）
定位	大模型训练	大规模推理部署
互联协议	灵衢2.0	灵衢2.0
应用场景	千亿/万亿参数模型训练	实时推理、智能体服务
生态支持	CANN全量开源、MindSpore	CANN全量开源、多框架推理

Ascend 950系列延续了华为Da Vinci架构的技术路线，在算力密度、能效比和互联带宽上进行了全面升级。尤其值得注意的是，华为已将昇腾CANN（Compute Architecture for Neural Networks）异构计算架构全量开源，这意味着合作伙伴和开发者可以完全掌握底层硬件的调度和优化能力，不再依赖华为的闭源组件^[2]。这一策略对构建国产AI算力生态至关重要。

三、灵衢（UB）互联协议技术解析

灵衢（Unified Bus，简称UB）是华为自研的高速互联协议，其地位类似于NVIDIA的NVLink/NVSwitch在GPU超节点中的角色。灵衢2.0是当前最新版本，为Atlas 950 SuperPoD提供了从芯片级到系统级的全栈互联能力^[1]。

协议层级设计：灵衢协议栈涵盖物理层、数据链路层、传输层和协议层四个层级。物理层基于高速SerDes技术，支持长距离铜缆和光互连；数据链路层提供可靠的帧传输和流量控制；传输层实现端到端的可靠传输和多路径路由；协议层则提供内存语义和消息语义两种通信模式。

内存语义互联：灵衢协议的核心优势之一是支持内存语义操作，即允许跨节点的直接内存访问（Remote Direct Memory Access，RDMA）。在大模型训练中，AllReduce等集合通信操作需要大量的跨卡数据交换，内存语义互联可以显著降低通信延迟和CPU开销。

协议开放策略：华为在本次大会上明确宣布灵衢互联协议对外开放，鼓励产业链伙伴基于灵衢协议开发兼容产品。这一策略的核心目标是构建一个开放的国产高速互联生态，避免算力基础设施被单一厂商的封闭协议锁定^[1]。

四、与NVIDIA NVL超节点架构对比

Atlas 950 SuperPoD的直接对标对象是NVIDIA基于H系列和B系列GPU构建的NVL144和NVL576超节点架构。从技术路线看，两者都采用了"Scale-up优先"的设计理念，但在实现路径上存在显著差异。

对比维度	Atlas 950 SuperPoD	NVIDIA NVL576
最大GPU/NPU规模	8192卡	576卡（单超节点）
互联协议	灵衢2.0（UB）	NVLink 5.0
协议开放性	完全开放	NVIDIA专有
生态成熟度	快速成长期	高度成熟
软件栈	CANN开源+MindSpore	CUDA
冷却方式	液冷为主	液冷

从单超节点规模来看，Atlas 950 SuperPoD的8192卡远超NVL576的576卡。但需要注意的是，8192卡更可能是一个多机柜组成的超节点集群，而NVL576的576卡是在一个紧凑的超节点单元内实现的。两者在互联拓扑和延迟特性上存在结构性差异。华为在Scale-up规模上的激进策略，与其灵衢2.0协议支持更长距离互联的技术特性直接相关。

在软件生态方面，NVIDIA的CUDA仍然是行业事实标准，但华为通过CANN全量开源的策略正在加速缩小差距。对于国内政企客户而言，Atlas平台的自主可控属性和华为全栈服务能力是其核心差异化优势。

五、Atlas 850E与TaiShan 950：完善产品矩阵

除了旗舰级的Atlas 950 SuperPoD，华为还同步展示了Atlas 850E超节点服务器和TaiShan 950 SuperPoD，形成了覆盖AI计算和通用计算的超节点产品矩阵。

Atlas 850E超节点服务器：面向风冷数据中心设计，支持从8卡到1024卡的灵活扩展。Atlas 850E的核心价值在于兼容传统风冷机房，降低AI算力部署的基础设施门槛。在许多企业数据中心尚未完成液冷改造的背景下，Atlas 850E提供了一条渐进式的AI算力升级路径^[1]。

TaiShan 950 SuperPoD：全球首个通用计算超节点，最大支持16节点、32颗处理器、48TB共享内存。TaiShan 950基于鲲鹏处理器，面向分布式数据库、大数据分析、内存数据库等对大内存和高互联带宽有需求的通用计算场景。通用计算超节点是一个相对新的概念，其核心思想是将传统分布式集群中的多台服务器通过高速互联整合为一个"超级服务器"，从而消除分布式通信开销，提升内存密集型工作负载的性能^[1]。

六、训练与推理性能展望

华为在本次大会上并未公布Atlas 950 SuperPoD的具体训练和推理性能基准数据，但从系统规格可以做出以下分析：

训练场景：8192卡规模的超节点可提供海量FP16/BF16算力，理论上可支撑万亿参数稠密模型或更大规模的MoE模型的全参数训练。灵衢2.0的高带宽低延迟互联是保证大规模并行训练效率的关键。
推理场景：Ascend 950PR专门优化了推理性能，支持INT8/FP8量化推理。在Token经济时代，推理算力需求将远超训练，Atlas平台的推理能力直接关系到华为云MaaS服务的竞争力^[3]。
混合场景：实际部署中，训推一体化（在同一个超节点上同时运行训练和推理任务）是重要的工作模式，灵衢2.0的带宽分配和隔离机制将在此场景中发挥关键作用。

七、开源开放策略的战略意义

华为在本届合作伙伴大会上反复强调的开源开放策略，是其算力生态布局的核心一环。具体包括三个层面：

CANN全量开源：将昇腾异构计算架构的完整代码向社区开放，开发者可以自由获取、修改和贡献代码。这意味着合作伙伴不再需要依赖华为的闭源驱动，可以自主进行性能调优和功能扩展。
灵衢协议开放：互联协议的开放为第三方硬件厂商参与国产算力生态打开了大门。网络设备厂商、光模块厂商都可以基于灵衢协议开发兼容产品。
鲲鹏+昇腾双生态协同：鲲鹏处理器的TaiShan超节点和昇腾NPU的Atlas超节点共享灵衢互联技术，实现了通用计算和AI计算在互联层面的统一。

这一开放策略的核心逻辑是：在国产算力生态尚未成熟的阶段，通过开源降低生态参与门槛，快速扩大开发者基础，最终形成类似CUDA的开源替代生态。对合作伙伴而言，这意味着更大的技术自主权和更低的供应商锁定风险。