NVIDIA Vera Rubin NVL72 深度解析

芒果虾 ICT专栏 · 产品深度分析 · 2026年5月15日更新

Vera Rubin AI超级计算机 HBM4 NVLink 6 Groq 3 LPU
单架GPU数
72
Rubin GPU + 36 Vera CPU
单架FP8算力
~1.4 EFLOPS
较Blackwell NVL72大幅提升
NVLink总带宽
260 TB/s
NVLink 6,较上代翻倍
单GPU显存
288 GB HBM4
带宽22 TB/s
推理成本
1/10
vs Blackwell每token成本
量产时间
H2 2026
七颗芯片全部全面量产

产品概述

NVIDIA Vera Rubin平台是Blackwell之后的下一代AI基础设施平台,于2026年1月CES首次公布、3月GTC 2026正式发布。平台包含七颗芯片(Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换机、Groq 3 LPU),覆盖从大规模预训练、后训练、测试时扩展到实时代理式推理的AI全生命周期。[1]

黄仁勋称之为"一代飞跃——七颗突破性芯片、五个机架、一台巨大的超级计算机"。Anthropic CEO Dario Amodei、OpenAI CEO Sam Altman均公开背书。目标客户为全球超大规模AI工厂。

技术架构与核心原理

五大机架(Five Racks, One Supercomputer)

Vera Rubin打破了传统"单机架"概念,采用POD-scale系统设计,五个专用机架协同组成一台AI超级计算机:

机架类型核心组件关键功能
Vera Rubin NVL72 GPU机架72 Rubin GPU + 36 Vera CPU + NVLink 6AI训练与推理主算力
Vera CPU机架256 Vera CPU强化学习环境、代理式AI验证
Groq 3 LPX推理机架256 LPU处理器超低延迟推理加速(128GB SRAM)
BlueField-4 STX存储机架BlueField-4 DPU + ConnectX-9KV缓存存储,推理吞吐量提升5倍
Spectrum-6 SPX以太网机架Spectrum-6交换机东西向AI工厂网络互联

Rubin GPU(R100)核心规格

Rubin GPU是平台的核心算力引擎,采用台积电N3工艺(预计),集成336亿晶体管,单芯片TDP约2300W。相比Blackwell实现了跨越式升级:

参数Rubin R100Blackwell B300Blackwell B200Hopper H100
显存288 GB HBM4288 GB HBM3e192 GB HBM3e80 GB HBM3
显存带宽22 TB/s8 TB/s8 TB/s3.35 TB/s
FP4算力50 PFLOPS15 PFLOPS9 PFLOPSN/A
FP8算力~19,400 TFLOPS5,000 TFLOPS4,500 TFLOPS3,958 TFLOPS
NVLink带宽3.6 TB/s (NVLink 6)1.8 TB/s (NVLink 5)1.8 TB/s (NVLink 5)900 GB/s (NVLink 4)
晶体管数336亿208亿208亿800亿
TDP~2,300W~1,400W~1,000W~700W
制程TSMC N3 (预计)TSMC 4NPTSMC 4NPTSMC 4N
云服务上市H2 2026202620252023

关键技术突破

性能提升量化

指标提升幅度基准
MoE训练GPU数量降至1/4vs Blackwell,同等任务
推理吞吐量每瓦10倍提升vs Blackwell
每token成本降至1/10vs Blackwell
Groq+Rubin推理吞吐量每MW35倍提升vs 纯GPU推理
STX KV缓存推理吞吐量5倍提升vs 通用存储架构
Vera CPU性能2倍效率、50%更快vs 传统数据中心CPU
FP4能效21.7 PFLOPS/kWvs B300的10.7、B200的9.0

架构分析:Vera Rubin的核心理念是"POD-scale"——不再以单芯片或单机架为设计单位,而是将五种专用机架视为一个完整的超级计算机。这种解耦式架构允许AI工厂根据工作负载类型(预训练、后训练、推理)灵活组合机架配比,而非一刀切地部署通用GPU机架。Groq 3 LPU的集成尤其值得关注——它标志着英伟达从"GPU解决一切"向"异构推理加速"的战略转变,直接针对超大规模实时代理式AI的低延迟需求。

厂商策略与市场定位

英伟达将Vera Rubin定位为"代理式AI时代的基础设施"。黄仁勋在GTC 2026分析师会上透露,Blackwell和Vera Rubin的采购订单可见度已达1万亿美元(2026-2027年),较一年前的5000亿美元翻倍。[2]

首批交付客户包括AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure,以及CoreWeave、Lambda、Nebius、Nscale等GPU云厂商。Dell、HPE、联想、超微、思科等系统厂商将提供基于Vera Rubin的服务器产品线。超过80家MGX生态合作伙伴参与全球供应链。

定价策略:行业分析预计R100云按需定价$15-25/hr(约为B200的3-5倍),但随着2027年供应增加将压缩至$2-3/hr spot价格。尽管绝对价格更高,但由于5倍吞吐量提升,成本每token仍优于Blackwell。

竞品对比

维度NVIDIA Vera Rubin NVL72Google TPU 8t/8iAMD MI400 (预计)
架构理念POD-scale五大机架训推分芯双轨传统GPU集群
GPU算力(FP8)~1.4 EFLOPS/架较Ironwood提升2.7倍未公布
推理加速Groq 3 LPU专用推理TPU 8i专用推理无专用推理单元
软件生态CUDA + NIM微服务JAX/PyTorch (Google内部)ROCm (追赶中)
开放性闭源,NVLink生态内部使用为主相对开放
客户范围全球超大规模+企业Google Cloud客户企业+HPC
上市时间H2 202620262027 (预计)

Google Cloud Next 2026发布的TPU第八代首次采用训推分芯(8t训练+8i推理),直接挑战英伟达的推理市场。但Vera Rubin通过Groq 3 LPU集成同样实现了训推解耦,且CUDA生态壁垒仍然是最大竞争优势。

对ICT架构师的价值

选型建议

适合升级到Vera Rubin的场景:万亿参数MoE模型训练、百万token上下文推理、大规模代理式AI部署、实时低延迟推理服务。

继续使用Blackwell的场景:70B以下参数模型推理、非MoE训练、预算有限的项目(Blackwell在2027年将成为性价比之选)。

中国市场:Vera Rubin预计将延续Blackwell的完全禁售政策,中国客户需关注华为昇腾950等国产替代方案。

发布时间线

时间事件
2026年1月5日CES 2026:黄仁勋发布Rubin平台,六颗芯片首次亮相
2026年3月16-19日GTC 2026:Vera Rubin平台全面发布,七颗芯片全面量产,Groq 3 LPU集成
2026年4月TrendForce:Rubin GPU量产目标从200万颗下调至150万颗,HBM4验证延迟
2026年H2(预计)首批Vera Rubin NVL72交付超大规模客户
2027年H2(计划)Rubin Ultra(四计算die,100 PFLOPS FP4,NVL576 "Kyber"机架,600kW)

参考资料

  1. NVIDIA Vera Rubin Opens Agentic AI Frontier(官方发布) - nvidianews.nvidia.com
  2. TIKR: NVIDIA 1万亿美元需求故事分析 - tikr.com
  3. NVIDIA Rubin平台投资者新闻稿 - investor.nvidia.com
  4. Spheron: Vera Rubin NVL72 Guide (H300 Specs) - spheron.network
  5. Barrack AI: NVIDIA Rubin Technical Breakdown - blog.barrack.ai
  6. NVIDIA BlueField-4 STX存储架构发布 - nvidianews.nvidia.com