智算基础设施深度技术分析

从微观工艺到宏观集群的系统性架构演进

2026-04-07 阅读约50分钟 7个技术维度

在通用人工智能(AGI)迅猛发展的背景下,智算基础设施已从传统的通用数据中心演变为高度集成的"算力工厂"。本报告从ICT架构师视角,围绕硬件工艺的底层突破、芯片设计的范式转移、物理互连的效率革命、连接介质的技术演进、超节点设计的系统整合、模型负载的压力解析以及跨中心网络的无损调度七大维度,进行系统性深度分析。这不仅是技术的堆叠,更是对后摩尔时代计算瓶颈的系统性回应。

目录

  1. 硬件工艺技术——后摩尔时代的先进封装与存储革命
  2. 芯片设计路线——GPGPU通用性与DSA能效的范式竞争
  3. 芯片内外互联——物理层与光学层的技术耦合
  4. 连接技术——铜缆的黄昏与CPO光电融合
  5. 超节点架构——机柜即计算机
  6. 模型负载压力——训练与推理对集群的极端压测
  7. 跨中心无损网络与确定性调度
  8. 总结与展望

硬件工艺技术——后摩尔时代的先进封装与存储革命

在半导体制程微缩接近物理极限的当下,先进封装技术已成为智算芯片性能跨越的关键路径。

1.1 主流工艺节点现状

当前AI加速芯片的制造工艺高度集中在台积电(TSMC)。NVIDIA Blackwell(B200)采用台积电4NP工艺(N4的定制增强版),Grace CPU采用台积电N5;AMD MI300系列使用N5/N6混合;Google TPU v5p使用三星5nm。随着单体芯片(Monolithic)面临掩模版尺寸限制(Reticle Limit,约800mm²),如何将更多晶体管集成在单一封装内成为核心挑战。

TSMC在2025年将先进制程产能进一步提升,AI加速器收入已占总营收的高十几个百分点。2026年资本支出指引为520-560亿美元,重点投向N2产能建设和先进封装扩展。然而,CoWoS、HBM与先进工艺的产能瓶颈将持续至2027年。

工艺节点代表产品晶体管密度AI芯片占比
TSMC N4/N4PNVIDIA Blackwell B200~170M Tr/mm²AI加速器主力
TSMC N5/N5PNVIDIA Grace CPU, AMD MI300~170M Tr/mm²CPU/混合芯片
TSMC N3E/N3PApple M4, 即将量产的AI芯片~250M Tr/mm²下一代主力
TSMC N2预计2025下半年量产~350M Tr/mm²2026年导入

N4/N5节点晶圆价格在2025年上涨约10%,N2相较N3预计上涨约50%,AI芯片制造成本持续攀升。2025年8月UCIe 3.0标准正式通过,首次引入"UCIe-3D"优化。2026年3月ISSCC上,Rebellions展示业界首个基于UCIe-Advanced的四芯粒AI加速器Rebel100,标志着chiplet从标准走向产品化。

1.2 CoWoS:2.5D封装的巅峰与分化

台积电CoWoS(Chip-on-Wafer-on-Substrate)是当前高性能AI加速器的标准选择。由于光刻机掩模版尺寸限制(Reticle Limit,约800mm²),单芯片面积无法无限扩大。TSMC的CoWoS产能从2024年的约5万片/月提升至2025年底的约13万片/月,但仍然供不应求,交期长达6-9个月。

目前CoWoS技术已分化为S、R、L三种主要路径

CoWoS三条技术路线

CoWoS-S:全硅中介层,互连密度最高,但受限于中介层制造尺寸的成本效益比。

CoWoS-R:采用RDL(重布线层)中介层,成本较低但互连密度有限。

CoWoS-L:在有机中介层中嵌入局部硅互连(LSI, Local Silicon Interconnect)桥接器,突破Reticle Limit限制。NVIDIA Blackwell架构对双倍掩模版面积的需求正驱动行业全面向CoWoS-L转型。CoWoS-L实现了高达10TB/s的芯片到芯片带宽,使两个独立GPU核心在逻辑上呈现为统一加速器。

1.3 3.0D时代:SoIC与Foveros的垂直集成

如果说CoWoS是在水平面上的扩张,那么SoIC与Intel Foveros则代表了向垂直维度的进军。

SoIC(System on Integrated Chips)采用无凸点(Bumpless)混合键合技术,直接通过铜对铜的原子级接触实现互连。2025年最新进展中,键合间距已缩减至6μm,每平方毫米互连点超过100万个。这种3D堆叠极大地缩短了电子传输路径,降低了寄生电容。

Intel Foveros则通过有源中介层实现异质节点的堆叠,允许将采用不同工艺制程的逻辑芯片、I/O单元与存储单元垂直整合。EMIB通过硅桥嵌入有机基板,实现相邻die的高密度互联而不需要整块硅中介层,成本更低。

1.4 HBM4:突破"存储墙"的战略物资

存储特性HBM3EHBM4 (2026预期)
单栈峰值带宽~1.2 TB/s>1.65 TB/s
堆栈层数8-Hi / 12-Hi12-Hi / 16-Hi / 24-Hi
互连模式2.5D硅中介层3D直接逻辑键合
底层Die工艺传统DRAM工艺先进逻辑工艺(可集成内存控制器)

HBM4的核心变革在于其底层Die首次允许采用先进逻辑工艺制造,使得内存控制器可以直接与计算单元实现混合键合,彻底消除互连延迟。然而由于制造工艺极端复杂,2026年的HBM4产能已被提前预订罄尽,SK Hynix的产能早在2025年上半年就已售罄。存储资源已成为智算竞赛中的战略物资。

1.5 散热挑战:从风冷到直接硅液冷

先进封装在提升密度的同时产生了极端热点。在3,300mm²的封装尺寸内,TDP已突破1000W。2025年IEEE ECTC会议上展示的"直接硅液冷"技术,通过在硅中介层内部蚀刻微流道,实现了超低结至环境热阻,标志着液冷已从系统级下沉至芯片级封装内部。

N2节点将首次引入背面供电(Backside Power Delivery),将电源布线从芯片正面移到背面,减少信号路由干扰。散热能力正在成为制约工艺节点推进的隐性瓶颈。

Chiplet生态四大瓶颈

(1) HBM供应——SK Hynix 2026年产能已于2025上半年售罄

(2) CoWoS产能——交期6-9个月,苹果/NVIDIA/AMD竞争

(3) ABF基板——新建产线需要2-3年

(4) Known-Good-Die测试——UCIe die良率损失在封装层面被放大

芯片设计路线——GPGPU通用性与DSA能效的范式竞争

2.1 两条设计哲学的根本分歧

GPGPU(通用GPU)路线:通过大规模并行线程(SIMT)模型提供极高的编程灵活性。以NVIDIA为代表,数以千计的CUDA核心与Tensor Core协同工作。Blackwell架构引入第二代Transformer引擎,利用微张量缩放(Micro-tensor Scaling)技术支持FP4和FP6精度,在保持精度的前提下将吞吐量翻倍。CUDA生态是NVIDIA最深的护城河——超过400万开发者基于CUDA开发AI应用。

DSA(领域专用架构)路线:针对矩阵乘法、卷积、注意力机制等进行硬件级定制。华为昇腾(Ascend)的达芬奇架构是DSA的典型代表,其核心特征是3D Cube计算单元,在一个时钟周期内可执行大量的矩阵乘加运算,在深度学习最核心的矩阵运算中展现出远超GPGPU的能效比。但DSA牺牲了部分通用性(如复杂逻辑分支处理),且软件生态远不及CUDA丰富。

2.2 GPGPU的技术演进

架构Tensor Core能力FFP16算力(单GPU)关键特性
Hopper H100FP8/TF32/FFP16/BF16~2,000 TFLOPS (FP8)Transformer Engine,FP8精度
Blackwell B200FP4/FP8/FFP16/BF16~4,000 TFLOPS (FP8)第二代Transformer Engine,FP4精度
Rubin(下一代)进一步增强更高NVLink 6,3.6TB/s per GPU

2.3 全球智算芯片竞争格局

芯片系列厂商架构类型核心优势最新指标
Blackwell B200NVIDIAGPGPU + Transformer Engine全栈生态与FP4算力208B晶体管 / 192GB HBM3E
Instinct MI325XAMDGPGPU (CDNA 3)极高的存储带宽与容量256GB HBM3E / 6TB/s带宽
昇腾 910C华为DSA (Da Vinci)矩阵运算能效与国产自主预估算力对标H200
BR100壁仞科技GPGPU高带宽互连与硬件虚拟化64GB HBM2e / 1.6TB/s带宽
MTT S4000摩尔线程GPGPU (MUSA)兼容CUDA生态与全功能GPU128GB显存

当前智算芯片市场可分为三大梯队:第一梯队为NVIDIA、AMD等全球领军者;第二梯队为华为昇腾为首的国产自研力量;第三梯队包括壁仞、摩尔线程等新兴势力。国产芯片在面临制程受限的情况下,普遍通过增加封装面积和优化架构效能来弥补单晶体管性能的不足。例如,华为昇腾910B3引入了HBM3e,将显存带宽大幅提升,为万亿参数模型的国产化训练提供了可能。

2.4 NVIDIA的双线策略:四位一体

NVIDIA并非只走GPGPU一条路

GPU通用计算:覆盖训练和推理的所有AI工作负载

NVLink Scale-up网络:将多颗GPU连接为逻辑上的单一超大计算单元(如NVL72中的72颗GPU)

BlueField DPU:将网络协议处理、存储I/O、安全等任务从CPU卸载到专用处理器,释放CPU资源

芯片内嵌专用硬件:Tensor Core(矩阵乘法DSA)、DLA(推理DSA)、NVLink-C2C(互联DSA)

本质上,NVIDIA的GPU已经是一个"通用+专用混合"的异构计算平台。

2.5 训练 vs 推理的设计取舍

维度训练推理
算力需求极高(BF16/FFP16全精度前向+反向)中等(INT8/FP8前向即可)
内存瓶颈频繁读写权重和梯度KV Cache访问、长上下文
互联需求极高——AllReduce等集合通信密集中等——主要在PD分离场景
延迟要求不敏感(批量训练)极敏感——TTFT和逐token延迟
能效要求重要但非首要非常重要——直接影响服务成本

芯片内外互联——物理层与光学层的技术耦合

随着单卡算力的增长,集群性能的瓶颈已从计算转移到通信。互联技术是智算系统的"神经系统"。

1.8 TB/s
NVLink 5 单GPU带宽
14×
vs PCIe Gen5
130 TB/s
NVL72 聚合带宽
576 GPU
NVLink域最大规模

3.1 片内互联:NV-HBI与双Die透明化

在Blackwell架构中,NV-HBI(NVIDIA High-Bandwidth Interface)作为die-to-die的底层连接,提供超低延迟互连,使得双芯片结构在编程模型中完全透明——开发者无需关心物理上是两颗die,软件层面看到的就是一颗统一的GPU。

现代GPU内部采用2D/3D Mesh Network-on-Chip(NoC)架构连接数百个SM、Tensor Core和L2缓存。片内互联带宽达数十TB/s级别,延迟纳秒级。

3.2 NVLink代际演进

代际单链路带宽每GPU链路数每GPU总带宽代表产品
NVLink 350 GB/s12600 GB/sA100
NVLink 4100 GB/s18900 GB/sH100
NVLink 5100 GB/s181.8 TB/sB200/GB200
NVLink 6200 GB/s183.6 TB/sRubin(下一代)

NVLink提供cache-coherent(缓存一致性)互联,GPU可以直接访问其他GPU的内存,延迟约300纳秒以内。更具革命性的是NVLink-C2C技术,它实现了CPU与GPU之间的高速内存一致性,允许GPU直接访问CPU的内存池,对于处理超长上下文(Context Length)的推理任务至关重要,有效缓解了HBM容量的限制。

3.3 NVSwitch:从8卡到576卡的扩展

NVSwitch代际总交换容量支持GPU规模代表时代
Gen1900 GB/s16 GPU (DGX-2)V100
Gen212.8 Tb/s64 GPUA100
Gen325.6 Tb/s256 GPUH100
Gen414.4 TB/s576 GPU (8×NVL72)Blackwell

在GB200 NVL72中,72颗GPU通过NVSwitch实现单跳全互联——任意两颗GPU之间只需经过一级NVSwitch,等效于将72颗GPU视为一颗逻辑上的"超大GPU",拥有统一的内存地址空间。当前NVLink域最大规模是576颗GPU,总带宽超过1PB/s。

3.4 内存带宽:HBM演进

内存类型带宽容量应用
HBM2e2.0 TB/s80 GBA100
HBM33.35 TB/s80 GBH100
HBM3e4.0 TB/s192 GBH200
HBM3e8.0 TB/s192 GBB200(双die)

GB200 NVL72系统总内存为13.5TB HBM3e,总内存带宽576TB/s。计算能力的增长速度远超内存带宽的增长速度——这就是"Memory Wall"。Scale-up(NVLink域)的带宽是Scale-out(IB/Ethernet)的约18倍,延迟是约1/1000。这意味着应将通信密集的并行(如TP)放在NVLink域内,通信稀疏的并行(如DP)放在Scale-out网络。

连接技术——铜缆的黄昏与CPO光电融合

4.1 铜缆的物理极限

铜缆是机柜内部短距离互联的首选方案,成本远低于光模块。当前主流是112G/lane PAM4信号。当通道速率提升至224G/lane时,铜缆的传输距离被限制在1-1.5米以内,端到端通道损耗约40dB,频率响应需覆盖至53GHz。实现这个目标需要更精细的PCB走线设计(skip-layer routing)、更高性能的连接器(insertion loss < -1dB @ 56GHz)、以及AEC(Active Electrical Cable)中的线性均衡芯片。

为解决信号完整性难题,正交直接对接架构(Orthogonal Direct-mate)应运而生,通过取消中间背板,减少信号路径中的连接点,保障信号完整性。

4.2 光模块:800G量产,1.6T加速

光模块规格功耗传输距离状态
800G DR8 (硅光)~16-17W500m量产中
800G 2×FR4~15W2-10km量产中
1.6T DR8预计20+W500m2025-2026
1.6T 2×FR4预计25+W2-10km开发中

硅光(Silicon Photonics)技术正在成为主流——将光器件集成在硅芯片上,实现光学引擎的批量制造。224G SerDes的成熟将推动1.6T端口普及:在铜缆域覆盖服务器到ToR的距离(~1m),在光模块域驱动每通道200G的光信号。

4.3 CPO:光电融合的必然选择

共封装光学(CPO)被视为解决"I/O功耗墙"的终极方案。其原理是将光学引擎直接安装在交换机ASIC或GPU的同一个封装底座上,取代传统的插拔式光模块。

CPO的功耗优势

800G可插拔光模块功耗约16-17W,而NVIDIA CPO交换机(Q3450)中光引擎+外置激光源每800G仅消耗约4-5W,功耗降低73%。Broadcom Bailly 51.2T CPO交换机验证了类似数据——5.4W per 800G,降低65%。CPO还可将带宽密度提升10倍以上。

但CPO最大的障碍在于可维护性——CPO属于非热插拔组件,一旦光学通道故障,可能需要更换整个昂贵的交换机托盘。因此行业目前正处于从可插拔向CPO演进的过渡期,1.6T速率下两者将长期并存。LPO(Linear Pluggable Optics)是CPO的竞争方案:保留可插拔形态,移除DSP降低功耗,成本和可维护性更优,但信号完整性补偿能力弱。

超节点架构——机柜即计算机

智算设施的演进已从单一服务器转向以机柜为核心的系统化集成,这一趋势被称为"Racknomics"。NVIDIA GB200 NVL72机柜是目前超节点设计的巅峰。

72 GPU
NVL72 全互联
5,000
NVLink铜缆数
~3,000 kg
机柜重量
~2.4 MW
整机柜功耗

5.1 正交连接:全互联的物理实现

NVL72中72颗GPU需要实现全互联,传统平面走线的线缆数量和复杂度无法承受。正交连接(Orthogonal Connection)的解决方案是:线缆从GPU tray出发后,沿两个正交方向走线——一个方向连接同一列的GPU,另一个方向通过NVSwitch连接不同列的GPU。这使得任意两颗GPU之间只需经过一级NVSwitch(单跳),实现无阻塞全互联。

NVL72内部包含36个GB200 Superchip tray(每个含2颗B200 + 1颗Grace CPU)和9个NVSwitch tray(每个含2颗NVSwitch Gen4芯片),通过约5,000根NVLink铜缆连接。正交走线需要在机柜设计时就规划好线缆通道,而非后加装。

5.2 电力架构与功率平滑

当单机柜功耗突破120kW时,电力分配成为设计难点:

  • 输入端:采用415V三相交流电直接输入机柜,减少电压转换层级,提升能源利用率
  • 冗余机制:普遍采用3+3或5+1的PSU冗余配置,确保关键任务不中断
  • 功率平滑:针对大模型训练中频繁出现的功耗峰值,引入储能电容和烧坏机制(Burn Mechanism),防止负载突变对数据中心电网造成谐波干扰或电压跌落
  • 5.3 液冷系统的精密控制

    冷却组件核心功能技术指标
    冷板 (Cold Plate)贴合热源,实现显热移除支持1000W+单芯片散热
    CDU (冷量分配单元)二次侧冷却液循环与控温隔离设施水,防止结露
    RDHX (后门热交换器)捕捉空气侧残余热量kW级风水转换
    盲插接口 (Blind Mate)快速运维与无泄漏连接浮动公差补偿

    液冷系统不仅提升了计算密度,还通过降低风扇功耗将PUE优化至1.1以下。研究表明,精准的盲插浮动机制可以降低15%的系统流阻,从而节省7%的水泵能耗。超节点的液冷设计已从单纯的散热工具演变为系统效率的保障。

    5.4 超节点的物理约束

    参数NVL72规格传统机柜
    整机重量~3,000 kg~500-800 kg
    功耗~2.4 MW(含网络/存储)10-20 kW
    散热方式必须液冷(Direct-to-Chip)风冷
    承重要求> 3,000 kg/柜标准600-1000 kg/柜

    传统数据中心无法直接部署NVL72——需要加固地板、升级供电、部署液冷基础设施。超节点的规模决定了单次张量并行的最大维度:对于万亿参数模型,72颗GPU的NVLink域通常可以容纳一个完整的模型分片。超过576颗GPU后,需要通过InfiniBand或以太网进行Scale-out互联。

    模型负载压力——训练与推理对集群的极端压测

    6.1 训练阶段:通信占比的数学残酷性

    在大规模分布式训练中,梯度同步(AllReduce)的耗时决定了集群的线性扩展比。以1万亿参数模型为例,仅一次AllReduce就需要传输约2TB数据。

    NVLink vs PCIe:通信开销的巨大差距

    在8卡H100训练Llama 70B时,NVLink的通信开销仅占训练总时间的约20-30%

    若回退至PCIe互连,通信开销将激增至50-60%以上,导致GPU大量时间处于空闲等待状态。

    在万卡集群中,即使采用InfiniBand网络,跨节点的有效带宽利用率也仅约50%,随着规模扩大损耗将非线性增长。

    MFU(Model FLOPS Utilization)是衡量训练效率的关键指标。在实际部署中,GPT-3级别模型在万卡集群上MFU通常只能达到40-50%。华为昇腾万卡集群的MFU最高达到50%,中国"先进计算"国家专项对万卡集群提出了"MFU不低于50%"的考核指标。Meta研究表明,单纯依赖FSDP在超大规模集群下会遇到严重的"收益递减"——引入模型并行(张量/流水线并行)是缓解通信瓶颈的关键。

    硬件故障是另一关键问题:万卡集群平均每天可能发生数十次故障(ECC错误、网卡故障、光模块故障、GPU掉卡等),单卡故障可能导致整个训练任务中断重启。高效的故障检测(分钟级定位)、断点续训和弹性调度是必备能力。

    6.2 推理阶段:内存受限与KV Cache的管理艺术

    推理过程是自回归的Decode过程,其性能受限于HBM的读写带宽而非计算算力。预计到2028年,推理工作负载占比将达到73%。

    KV Cache三大优化技术

    KV Cache碎片化:传统内存分配会导致高达40%的碎片化浪费。

    PagedAttention:借鉴操作系统分页机制,将KV Cache离散存储在内存页中,使单卡吞吐量提升2-4倍。

    前缀缓存(Prefix Caching):针对多轮对话或固定系统提示词,多路推理请求可共享同一段KV Cache,显著降低重复计算的HBM带宽消耗。

    NVFP4 KV Cache:NVIDIA在Blackwell上引入4-bit FP格式,相比FP8减少50%内存占用,MMLU准确率仅下降0.6%(82.5% → 81.9%)。

    6.3 PD分离与KV Cache Offload

    PD分离(Prefill & Decode Separation)将两个阶段部署到不同GPU上:Prefill阶段需要高并行度的矩阵乘法(compute-bound),Decode阶段是顺序生成(memory-bound)。混合在同一批GPU上会导致资源争抢,PD分离使Token吞吐量提升2-3倍。

    KV Cache Offload将冷数据从GPU HBM卸载到主机DDR甚至NVMe SSD,实现三层存储——GPU HBM(热数据)→ 主机DDR(温数据)→ NVMe SSD(冷数据),突破显存容量限制。

    6.4 训练 vs 推理的集群架构差异

    维度训练集群推理集群
    网络拓扑无收敛CLOS,高带宽参数面可能收敛,多业务面并存
    流量模式规律的集合通信(AllReduce等)突发、异步的请求响应
    GPU需求高算力、高互联带宽高内存容量、高能效
    存储需求高吞吐训练数据读取低延迟KV Cache访问
    弹性需求弹性调度(故障恢复)弹性扩缩容(应对流量波动)

    跨中心无损网络与确定性调度

    7.1 RoCE v2 vs InfiniBand

    维度InfiniBandRoCE v2
    无损机制硬件原生PFC + ECN + DCQCN
    生态成本专用网卡+交换机,成本高以太网卡+交换机,成本低
    跨网段能力原生IP over IB原生以太网路由
    社区支持NVIDIA主导UEC联盟推动

    7.2 无损网络三大机制深度解析

    RoCEv2通过将RDMA封装在UDP/IP报文中,实现在标准以太网上的低延迟传输。但其脆弱性在于对丢包的零容忍。

    PFC(Priority Flow Control):基于IEEE 802.1Qbb,当交换机缓存达到阈值时向发送方发送PAUSE帧,强制停止发包以防止溢出。这是"最后一道防线"——防止缓冲溢出导致丢包。

    ECN(Explicit Congestion Notification):交换机在队列超阈值时对数据包标记ECE bit,接收端反馈CNP给发送端,触发拥塞控制算法平滑降速。这是"主动预警"——在丢包发生前就通知发送端。

    DCQCN:结合ECN和PFC的拥塞控制算法。华为AI Fabric 2.0进一步提出AI ECN 2.0——通过AI算法动态调整ECN标记阈值和缓冲区大小,适应AI训练流量的特殊模式(高突发、多对一)。

    7.3 UEC(超以太网):下一代AI网络协议栈

    2024年成立的UEC(Ultra Ethernet Consortium)正在推动RoCE的下一代标准,目标是提供与IB相当的性能但基于以太网生态。UEC的关键技术包括:

    UEC三大核心技术

    链路层可靠性(LLR, Link-Level Reliability):在链路层实现丢包重传,对上层应用透明,解决传统以太网在大规模AI任务中的高变延迟(Jitter)问题。

    基于信用的流控(CBFC, Credit-Based Flow Control):取代PFC的基于暂停帧的流控,通过信用机制实现更精细的流量控制。

    端网协同优化:统一调度端侧和网络侧的拥塞控制策略,避免PFC带来的队头阻塞问题。

    7.4 跨中心无损网络的挑战

    带宽收敛:跨DC链路(OTN/WDM)带宽远低于DC内部。华为研究论文指出:在跨DC距离960公里的8机8卡环境中,AllReduce完成时间在带宽收敛时大幅增加,收敛比越大,性能下降越多。

    长距RTT:100km约0.5ms RTT,1000km约5ms RTT。PFC在长距场景下效率极低——PAUSE帧到达时大量数据已在链路上传输。

    谷歌Gemini Ultra采用多DC联合训练,验证了跨DC训练的技术可行性,但也意味着网络架构必须根本性变革。

    7.5 确定性网络与跨中心调度思路

    在广域算力调度中,光纤传输的物理延迟(约5μs/km)是不可逾越的。跨中心网络的优化思路在于:

  • 意图驱动网络(IDN):通过AI实时预测流量峰值,动态调整路由路径,实现确定性的排队时延
  • 确定性广域网(DetNet):采用分时调度技术,为大模型权重同步预留独占的波长通道,确保跨地域训练的参数同步像局域网一样稳定
  • 在网计算(In-Network Computing):将部分集合通信操作卸载到交换机可编程硬件上。NVIDIA SHARP协议使交换机在转发AllReduce数据流的同时完成聚合计算,通信量减少约50%。华为AI Fabric 2.0支持AllReduce等5种以上通信原语和GEMV、SoftMax等5种以上算子的网络设备卸载
  • "One Giant NPU"愿景:通过网络感知算力状态,实现任务的近源调度,最大限度减少长距离数据迁移
  • 总结与展望

    1. 工艺与封装是算力底座:TSMC N4/N5是当前主力,CoWoS-S/R/L三条路线分化,CoWoS-L突破Reticle Limit。SoIC 6μm键合间距和Foveros 3D堆叠代表了垂直集成方向。2nm和背面供电是下一代方向。

    2. GPGPU + DSA混合是趋势:NVIDIA通过"GPU + Tensor Core + NVLink + DPU"四位一体策略实现混合架构。华为昇腾3D Cube等DSA在矩阵运算能效上占优,但生态壁垒是核心挑战。国产芯片通过增大封装面积和优化架构弥补制程差距。

    3. 互联带宽决定集群效率:NVLink 5实现1.8TB/s per GPU,NV-HBI使双die编程透明,NVLink-C2C实现CPU-GPU内存一致性。Scale-up和Scale-out之间约18倍带宽差距决定了并行策略设计。

    4. 铜缆黄昏,CPO黎明:224G铜缆距离极限约1m,正交直接对接架构是过渡方案。CPO功耗降低65-73%但可维护性差,1.6T时代可插拔与CPO将长期并存。

    5. "机柜即计算机"已成现实:NVL72正交连接实现72 GPU单跳全互联,功率平滑和精密液冷是工程核心。散热从系统级下沉至芯片级封装内部。

    6. 推理正在重塑集群架构:PD分离+KV Cache Offload+前缀缓存是推理优化的三大支柱,NVFP4 KV Cache以0.6%精度损失换取50%内存节省。预计2028年推理占73%。

    7. 无损以太网是大势所趋:UEC联盟推动LLR和CBFC取代PFC,AI ECN 2.0动态调优。确定性广域网和在网计算是跨中心训练的关键使能技术。

    未来展望

    智算基础设施的构建已不再是简单的硬件堆叠,而是一场涵盖了材料科学(先进封装)、热力学(精密液冷)、计算机架构(DSA与一致性互连)以及网络通信(无损以太网)的交响乐。随着HBM4的成熟与CPO技术的商业化,计算节点将实现真正意义上的"光电融合"。而"机柜即计算机"的设计范式将进一步深化,推动算力利用率从目前的40-50%提升至更高水平,最终为大模型从万亿参数向十万亿参数的跨越提供坚不可摧的物理基石。

    参考文献

    A. 网络与系统架构

    B. 先进封装与工艺

    C. 芯片架构与产品

    D. 光互联与CPO

    E. 供电与液冷

    F. KV Cache与推理优化

    由芒果虾 AI 研究生成 · 仅供参考 · 数据均标注来源