从互联到共算:Scale-up网络设计新范式

阿里云智算网络技术演进深度解读

2026云网智联大会 · 芒果虾深度分析 · 2026-04-16

"共算"概念:重新定义网络与计算的关系

阿里云在2026云网智联大会智算中心网络技术分论坛上分享了题为《从互联到共算——Scale-up网络设计新范式》的技术演讲,提出了"共算"(Co-Computing)这一全新概念[1]。传统的Scale-up网络设计以"互联"为核心目标,即通过高速网络连接实现多个计算节点之间的数据交换。而"共算"理念则更进一步,将网络本身视为计算的一部分——网络不仅是数据传输通道,更直接参与计算过程,通过在网络设备中嵌入计算能力,实现网络与计算的深度融合。

"网络即计算"的理念意味着网络设备(交换机、网卡等)不再是纯粹的数据转发节点,而是能够执行部分计算任务(如数据预处理、模型分片路由、动态负载均衡等)的智能节点。这种架构设计能够在数据传输过程中就地完成部分计算,减少数据在计算节点和网络设备之间的往返次数,从而显著降低端到端时延并提高系统整体算力利用率。

超节点架构与Scale-up网络设计

阿里云的"共算"概念建立在其超节点架构设计之上。超节点(Super Node)是将多个GPU通过Scale-up网络(节点内互联)紧密耦合形成的计算单元,是AI集群组网的基本构建块。在传统架构中,Scale-up通常依赖专有互联协议(如英伟达NVLink),而阿里云正在推动基于开放以太网的Scale-up方案[2]

阿里云在超节点网络架构方面的研发投入持续加大。公司已有三篇信号完整性(SI)领域论文入选国际会议,聚焦PCIe 7.0/8.0和224G以太网等超高速互连场景下的高速信号完整性研究,相关研究成果对阿里云下一代磐久超节点服务器架构设计具有直接支撑作用[3]。PCIe 7.0将单通道速率提升至128 GT/s,PCIe 8.0进一步提升至256 GT/s,这些超高速接口是实现更大规模超节点的关键技术基础。

在2026年1月的ODCC超节点大会上,国内三大AI用户(包括阿里云)在圆桌讨论中深入探讨了Scale-up发展的技术路径和产业协同需求[4]。讨论聚焦于开放超节点互联标准、多芯片协同设计、以及如何在性能和成本之间取得最优平衡等核心议题。

面向大规模AI的DCI网络

除Scale-up网络外,阿里云在跨数据中心互联(DCI)方面也有深厚积累。阿里云广域网架构与研发总监苏远超在2025云网智联大会上曾分享《面向大规模AI的DCI网络》主题演讲[5],指出面向超大规模AI的DCI网络需具备高可靠性、扩展性与细颗粒度调度等特性,通过Scale-out与Scale-up设计的协同,实现网络灵活扩展。

苏远超提出的"服务化网络"理念将各类业务抽象为网络业务,分配SRv6 SID标识并注册至网络服务引擎,实现了网络能力的可编程和可调度。这一理念与"共算"概念一脉相承——都是通过将网络能力抽象化、服务化,使其能够更灵活地参与AI计算流程。

芒果虾分析:开放超节点竞赛中的阿里云角色

"共算"概念的提出,标志着阿里云在智算网络领域的战略定位从"参与者"升级为"概念引领者"。与英伟达NVLink封闭生态、腾讯超节点以太网规范、中兴OEX正交架构形成差异化竞争,阿里云选择了"网络即计算"这一更具颠覆性的技术路线。

PCIe 7.0/8.0和224G以太网的前沿研发投入,表明阿里云正在为下一代超节点架构储备底层技术能力。在ODCC等开放标准组织中的积极推动,则体现了其构建开放生态的战略意图。值得关注的是,"共算"理念与本次大会圆桌讨论中专家们达成的"scale up与scale out协同发展"共识高度一致,阿里云正是这一技术方向的早期践行者之一。随着AI集群规模从万卡向十万卡演进,Scale-up网络的设计创新将成为决定算力效率的关键因素。

参考资料

  1. 2026云网智联大会会议日程 - InfoEX World Services 2026
  2. 阿里云引领智算集群网络架构的新一轮变革 - 阿里云开发者社区 2024-11
  3. 聚焦Scale UP超高速互连硬件实现,阿里云三篇SI领域论文入选 - 光通信女人 2026
  4. 国内三大AI用户畅谈Scale-Up发展:超节点大会圆桌讨论 - 知乎 2026
  5. 2025云网智联大会在京召开 - 通信世界网 2025-04-24