新华三S90000高密全液冷整机与X20000 AI原生存储深度解析

芒果虾 2026年5月19日 阅读约25分钟
1U / 6CPU
业界最高密度节点
PUE 1.04
整机柜能效比
200GB/s
X20000单节点带宽
300万 IOPS
X20000极致并发

一、发布背景与产品定位

2026年5月8日,新华三集团在北京举办NAVIGATE 2026领航者峰会,以"算力 x 联接,AI x 未来"为主题,发布以UniPoD S80000超节点为核心的AI基础设施全栈产品矩阵。其中,S90000高密全液冷整机与X20000系列AI原生存储构成"算+存"两大硬件支柱,分别从通用算力密度和AI数据供给两个维度切入当前AI基础设施的核心矛盾[1]

紫光股份董事长、新华三集团总裁兼首席执行官于英涛在峰会上指出,当前AI产业正经历基于Token经济的范式转移。部分数据中心GPU利用率不足六成,网络拥塞导致算力高损耗,算力瓶颈往往不在GPU本身,而在于存储系统供给不足和网络调度效率低下[2]。这一判断构成了S90000与X20000联合设计的工程逻辑——通过算存协同,消除GPU空转,提升Token性价比。

从产品谱系看,S90000定位为高性能通用算力平台,解决数据中心空间、能耗、散热三重约束下的CPU算力密度问题;X20000定位为AI原生存储,解决大模型训推场景下存储带宽、IOPS、协议兼容三方面的数据供给瓶颈。两者在NAVIGATE 2026上联合发布,共同支撑从1024卡到16384卡的弹性扩展能力[2]

二、S90000高密全液冷整机架构深度解析

2.1 1U 6CPU:密度突破的工程实现

S90000最引人注目的技术指标是在1U标准机箱空间内部署6颗高性能CPU。传统1U服务器普遍采用双路架构(2颗CPU),少数产品做到4路已是极限。新华三实现6CPU密度的关键在于架构层面的重构:将计算节点从独立服务器形态转变为高密计算模块,每个模块在1U高度内通过定制化主板设计和特殊散热通道布局,容纳6颗处理器及其配套内存、网卡等组件[3]

从热力学角度分析,单颗高性能服务器CPU的热设计功耗(TDP)通常在250W-400W区间。6颗CPU加上内存、供电模块、网络接口等发热组件,单个1U节点的总热负荷可达2kW-3kW。在传统风冷条件下,1U空间的气流截面积极其有限,即便采用高性能风扇也难以将如此高的热量有效排出。这正是S90000必须采用全液冷架构的根本物理原因——风冷的热传递系数约为10-100 W/(m2.K),而液冷可达1000-10000 W/(m2.K),提升两个数量级[3]

密度对比

算力密度较传统方案提升300%。整机柜最高承载36个计算节点、216颗高性能CPU,算力核心规模突破3万核[3]。以Intel Xeon第五代可扩展处理器(Birch Stream平台)为参考,每颗CPU最高可提供128个物理核心,216颗CPU的理论总算力达到27,648核,单柜即可提供超大规模并行处理能力。

2.2 全域液冷系统架构

S90000的液冷方案不是局部的CPU冷板散热,而是"全域液冷"——整机实现100%冷板全覆盖,CPU、内存、硬盘、网卡、电源等所有发热部件均采用冷板散热[3]。这一设计的工程意义在于消除了风冷与液冷混合架构中的热耦合问题。

在混合散热架构中(例如仅CPU液冷、其余风冷),机箱内仍然需要风扇为非液冷组件提供气流,但高密布局下气流通道受阻,局部热点难以消除。S90000采用全液冷无风扇设计,从根本上消除了这一问题,同时带来两个附带收益:一是彻底消除机械噪音(风机噪音通常在60-80dB),二是减少风扇这一高故障率机械部件,提升系统整体可靠性[3]

散热系统采用"四分区液冷技术",即将机柜内部分为四个独立的液冷回路区域,每个区域有独立的流量控制。这种分区设计的优势在于:不同节点的工作负载可能不同,热产出也不同,分区控制允许按需调节冷却液流量,在保证散热效果的同时降低泵的能耗。精细的流量控制还减少了因流量不均导致的局部过热风险。

2.3 供电系统:800V高压直流与300kW单柜

高密度计算对供电系统提出严峻挑战。S90000采用池化集中式液冷供电单元,支持双输入冗余与N+M冗余,单机柜最高供电能力达300kW[3]。这一数字的含义是:单柜300kW供电能力,在标准42U机柜中意味着平均每U约7.1kW,而S90000实际部署为36个1U节点加交换/管理设备,单节点平均功耗约6.5-8kW,与6CPU的功率预算基本匹配。

供电架构上,S90000国内首家落地1U 38.4kW高密电源,并原生兼容800V高压直流供电[3]。800V高压直流相比传统的48V或380V直流供电,在传输相同功率时电流更低,线路损耗(I2R损耗)按平方关系降低。以300kW供电为例:

线路损耗对比(假设线路电阻R = 0.01 Ohm):
380V DC: I = 300kW / 380V ≈ 789A, P_loss = I²R = 789² × 0.01 ≈ 6.23kW
800V DC: I = 300kW / 800V = 375A, P_loss = 375² × 0.01 ≈ 1.41kW
损耗降低: (6.23 - 1.41) / 6.23 ≈ 77%

800V高压直流还减少铜材消耗——相同功率下导线截面积可缩小至原来的约47%,这对于大规模数据中心的布线成本和施工复杂度都有显著优化。同时,减少AC/DC转换环节(高压直流可直接经DC/DC降压供给计算负载),进一步降低电能转换损耗[3]

2.4 PUE 1.04的能效解析

PUE(Power Usage Effectiveness)是数据中心能效的核心指标,等于数据中心总耗电与IT设备耗电之比。PUE 1.0为理论极限——所有电力全部用于计算。PUE 1.04意味着每100W的计算负载,设施总功耗仅104W,仅4W用于制冷和配电损耗[3]

作为对比,中国数据中心平均PUE约为1.4-1.5,即每100W计算负载需要40-50W的额外能耗用于制冷和配电。四部门联合印发的《促进人工智能与能源双向赋能行动方案》已明确新建大型AI数据中心100%采用液冷散热,北京对PUE超过1.35的数据中心征收差别电价[4]。S90000实现PUE 1.04的技术路径清晰:全域液冷消除了风扇能耗(传统服务器风扇功耗约占10-15%),冷板液冷的热传递效率远高于空气对流,配合高温冷却液(通常40-45°C供液温度)可实现全年大部分时间利用自然冷却(Free Cooling),大幅降低制冷压缩机的运行时间。

300kW
单柜最大供电能力
36节点
单柜最大计算节点
216 CPU
单柜处理器规模
67%
电力损耗节省比例

2.5 运维体系:水电双盲插与漏液防护

液冷系统的运维复杂度是阻碍其大规模部署的关键因素之一。S90000在设计上针对三大运维痛点逐一提供工程方案。

首先是部署效率。传统液冷服务器的水路连接需要专业人员操作,耗时较长。S90000创新采用"水电双盲插"设计——标准化快接头与母线接口配合,无需专业技能即可完成水电连接,实现即插即用[3]。盲插设计的核心在于接口的容错性:快接头在插入过程中自动对准并密封,操作人员无需精确对位,大幅缩短交付周期。

其次是漏液风险。这是液冷系统最受关注的可靠性问题。S90000构建双重漏液检测加全链路防护机制:机柜与节点内置高精度检测绳,可识别0.5ml以下微量漏液;节点至机柜配备导流槽、防喷溅盒、积液盘等物理防护结构,实现漏液快速隔离与导出[3]。0.5ml的检测精度意味着在漏液扩散到电路板之前即可触发告警,为运维人员争取响应时间。

第三是管理监控。S90000搭载双层带外管理架构:机柜级RMC(Rack Management Controller)统一监控电源、散热、环境状态;节点级HDM/BMC(Hardware Device Management / Baseboard Management Controller)实时监测CPU、内存、磁盘等硬件健康。双层架构的优势在于故障隔离——即使某个节点的BMC失联,机柜级RMC仍可通过环境传感器感知异常,避免单点故障导致监控盲区[3]

三、X20000 AI原生存储架构深度解析

3.1 从"通用存储"到"AI原生"的架构重构

新华三将X20000定义为"AI原生存储"而非通用存储,核心区别在于IO路径的根本性重构。传统分布式存储(如Ceph、Lustre等)的IO路径经过多层软件栈:应用 → 虚拟文件系统 → 分布式文件系统客户端 → 网络传输 → 存储节点 → 本地文件系统 → 块设备。每一层都引入额外开销,对于AI训练中常见的TB级大文件顺序读写和亿级KB小文件随机访问这两种极端负载,传统架构难以同时兼顾[5]

X20000的自研存储引擎采用"大IO直通+小IO聚合"策略:对于大文件读写(如训练数据集加载),IO请求直接通过高速路径到达存储介质,绕过中间缓存和元数据服务层的额外开销;对于海量小文件(如模型参数文件、训练样本索引),则在客户端侧进行聚合,将多个小IO合并为大块传输,减少网络往返次数[6]。实测数据显示,硬件性能利用率提升至95%以上[6]

3.2 性能指标与MLPerf验证

X20000的核心性能指标为单节点200GB/s带宽、300万IOPS[5]。这一性能数字并非实验室理想条件下的峰值,而是经过MLPerf Storage v2.0权威基准测试验证的真实负载性能。

2025年8月,MLCommons公布的MLPerf Storage v2.0测试结果中,新华三Polaris X20000以单节点158.92GB/s(3D-UNet模型场景)、集群总带宽476.752GB/s的成绩,登顶高性能RoCE AI存储解决方案榜首[7]。需要特别说明的是,MLPerf Storage的测试条件极为苛刻:在3D-UNet和ResNet50模型场景下,要求存储系统在保持GPU利用率90%以上的同时进行带宽测评。这意味着测试的不是存储系统的裸性能,而是存储对GPU训练效率的实际支撑能力——如果存储供给不足导致GPU利用率下降,则测试不通过[7]

指标X20000标称值MLPerf实测值测试条件
单节点带宽200 GB/s158.92 GB/s3D-UNet, GPU利用率>90%
集群带宽线性扩展476.752 GB/s3节点集群, 320 GPU
单节点IOPS300万-随机读写混合负载
GPU支撑规模-320 GPUGPU利用率>90%

标称值(200GB/s)与MLPerf实测值(158.92GB/s)之间的差距反映了真实AI训练负载与理想顺序读写之间的差异。3D-UNet模型涉及大量随机数据访问模式,存储系统需要同时处理数据读取、Checkpoint写入、元数据查询等多种IO类型,实际带宽低于纯顺序读写峰值是完全合理的。158.92GB/s的单节点实测值在RoCE方案中已是业界最高水平[7]

3.3 RoCE网络与EPC客户端

X20000在高性能数据传输上采用RoCE(RDMA over Converged Ethernet)协议。RoCE允许数据在网络适配器和存储节点之间进行零拷贝传输,绕过操作系统内核协议栈,直接在GPU内存和存储介质之间搬移数据[7]。这降低了CPU占用率——传统TCP/IP协议栈处理10Gbps以上的数据流需要消耗数个CPU核心,而RDMA几乎不占用CPU计算资源,将其释放给模型训练。

自研EPC(Enhanced Parallel Client)高性能客户端是X20000实现高并发的关键组件。EPC实现了所有存储节点的IO级负载均衡,支持并行文件系统,确保单个客户端的IO请求能够充分利用整个存储集群的带宽。在大规模训练场景中,成百上千个GPU同时向存储系统发起数据请求,EPC通过智能调度将IO请求均匀分布到各存储节点,避免单节点成为热点瓶颈[5]

新华三选择RoCE而非InfiniBand的原因在于TCO(总拥有成本)考虑。InfiniBand网络在超低延迟场景有优势,但设备成本高、运维复杂度高、供应商锁定风险大。RoCE在标准以太网上实现RDMA,设备通用性强,运维团队的学习成本低,在性能接近的情况下具备更优的性价比[7]。从实测结果看,RoCE方案已能支撑320个GPU同时保持90%以上利用率,证明其在超大规模训练场景中的可行性。

3.4 四协议互通与数据零迁移

AI数据链路涉及多种协议:训练框架通常通过POSIX文件接口读取训练数据,大数据预处理可能使用HDFS,模型发布后通过S3对象存储接口分发,部分场景还需要NFS/SMB传统文件共享。传统架构下,不同协议需要不同存储系统支撑,数据在不同系统间迁移时产生大量开销[5]

X20000实现块、文件、对象、HDFS四协议在同一存储平台上的原生互通,且跨协议访问"语义无损、性能无损"[5]。这意味着同一份数据可以通过文件接口供训练框架读取,同时通过S3接口供应用服务调用,无需数据复制或格式转换。新华三宣称,全链路数据零迁移使数据准备时间减少35%[5]

3.5 XCache推理加速与KV Cache卸载

NAVIGATE 2026发布的X20000系列新增XCache推理加速引擎,针对大模型推理场景中的KV Cache瓶颈提供工程方案。随着大模型上下文窗口从32K扩展到128K甚至更高,KV Cache规模线性增长,对推理性能构成三重压力:首Token时延高、并发承载弱、GPU显存消耗大[5]

XCache的核心策略是"以存换算"——将KV Cache从GPU显存卸载到存储系统,释放GPU算力用于模型推理计算。技术实现上,XCache打通GPU显存、本地内存、SSD、X20000存储、CXL内存池的全链路加速,采用零拷贝和GDS(GPUDirect Storage)直通技术缩短数据访问路径[5]。KV稀疏化算法进一步降低实际传输量,只缓存活跃的KV数据。实测数据显示,KV数据卸载至X20000后,首Token延迟降低90%,性能最大优化10倍[5]

以存换算的工程意义

传统推理架构中,KV Cache存储在GPU显存中,随着并发请求增加,显存快速耗尽,迫使降低batch size或拒绝新请求。XCache将KV Cache卸载到存储系统后,GPU显存仅用于模型权重和当前计算所需的小量KV数据,理论并发容量不再受GPU显存限制,而由存储系统的带宽和延迟决定。这是从"算力受限"到"存力赋能"的范式转变。

3.6 产品形态与纠删码策略

X20000系列包含两个硬件形态。X20836为2U 36盘位全闪存储节点,支持36个E3.S NVMe盘位,聚焦AI训练中数据集读取、Checkpoint写入等极致性能场景。X20360为4U 60盘位混闪存储节点,支持60个3.5英寸HDD加最多10个2.5英寸NVMe盘位,兼顾大容量承载与数据加速,适配海量非结构化数据和数据湖场景[5]

数据可靠性方面,X20000采用32+2超大比例纠删码(Erasure Coding),可用容量达94%[5]。传统8+2纠删码可用容量为80%,16+4为80%,32+2则将这一比例提升到94%。这意味着在提供同等有效容量的情况下,32+2方案所需的裸存储容量更少,显著降低存储成本。当然,超大比例纠删码的代价是数据重建时间更长(需要从32个数据分片中恢复),但对AI训练场景而言,数据重建通常不在关键路径上。

四、算存协同:S90000与X20000的联合架构价值

S90000与X20000并非孤立产品,而是新华三智算全栈中的"算+存"双引擎。两者在联合部署时形成三层协同。

第一层是物理基础设施协同。S90000的全液冷架构和X20000的高密度存储节点可以在同一液冷回路中运行,共享CDU(冷量分配单元)和管路基础设施。这降低了数据中心的液冷系统建设复杂度和成本——不需要为计算和存储分别部署独立的制冷系统。

第二层是网络协同。S90000的CPU计算节点通过RoCE网络直连X20000存储,新华三的102.4T智算交换机S9800系列提供无损以太网支撑,确保存储流量与计算流量在同一物理网络上互不干扰[2]。端到端的RDMA路径从存储介质延伸到CPU内存,消除了传统TCP/IP的网络延迟和CPU开销。

第三层是软件协同。新华三新一代AI智能云平台实现通算智算一体化调度,支持100+种GPU/NPU统一纳管[2]。在这一调度层,S90000的CPU算力可用于数据预处理、模型编译、推理编排等通用计算任务,X20000则作为统一数据底座,承载从数据采集到模型分发的全链路数据流转。算力与存力在同一平台上被统一调度,避免了"算等数据"或"数据等算力"的资源浪费。

协同维度技术手段性能效果
物理基础设施共享液冷回路、CDU降低制冷系统建设成本
网络传输RoCE + 102.4T交换机端到端零拷贝RDMA
软件调度AI智能云统一纳管算存一体化调度
数据链路四协议互通数据零迁移

五、竞品对比与工程挑战

在高密液冷整机领域,国内主要竞争者包括浪潮信息、中兴通讯、联想等。浪潮信息的液冷服务器产品线覆盖冷板式和浸没式,但其整机柜方案目前未实现1U 6CPU的密度。英伟达在GTC 2026上发布的Vera Rubin NVL72为首个100%全液冷架构,但定位GPU智算超节点,与S90000的CPU通用算力定位不同[4]

在AI存储领域,X20000的直接竞品包括DDN的EXAScaler系列、VAST Data的通用存储平台、以及华为OceanStor A系列。DDN在HPC/AI存储领域深耕多年,Lustre并行文件系统优化经验丰富;VAST Data采用NVMe-over-Fabrics和QLC闪存创新架构,在成本优化上有独到之处。X20000的差异化在于RoCE方案在MLPerf Storage中的实测登顶,以及四协议互通的原生实现[7]

维度H3C X20000DDN EXAScalerVAST Data华为OceanStor A
单节点带宽200 GB/s~150 GB/s~120 GB/s~180 GB/s
网络协议RoCE / IBIB为主NVMe-oFRoCE
多协议互通块/文件/对象/HDFS文件为主文件/对象块/文件/对象
MLPerf验证RoCE方案榜首长期领先有提交有提交
推理加速XCache KV卸载有限有限有方案

在工程挑战方面,S90000面临的核心风险是液冷系统的长期可靠性。虽然双重漏液检测和物理防护机制在理论上完备,但液冷系统涉及大量密封件、接头、管路,在数年运行周期内的老化、振动、化学腐蚀等问题需要长期运行数据验证。此外,1U 6CPU的高密布局对芯片散热均温性提出极高要求——6颗CPU同时满载时,边缘位置的CPU可能因管路压降导致冷却液流量不足,四分区设计虽然缓解了这一问题,但并非完全消除[3]

X20000面临的挑战在于32+2纠删码的重建时间。当2个校验分片节点同时故障时,需要从32个数据分片中恢复,网络带宽消耗和数据搬运量巨大。虽然AI训练场景对数据重建的实时性要求相对较低,但在金融、医疗等对数据可靠性要求极高的行业,这一问题需要额外的数据冗余策略来覆盖。

六、技术演进趋势

液冷技术正从"节能可选项"转变为"算力部署必选项"。2026年液冷渗透率预计突破37%,向2027年50%的临界点迈进[4]。英伟达Vera Rubin NVL72的100%全液冷架构设定了行业标杆,国内厂商在液冷标准化(快接头、管路协议、冷却液配方)方面仍需加速统一,以降低部署和运维成本。

AI存储的演进方向从"更高带宽"转向"更智能的数据管理"。KV Cache卸载、智能分层存储、基于数据热度的自动迁移等技术正在将存储从被动的"数据仓库"升级为主动的"数据引擎"。X20000的XCache方案代表了这一趋势——存储系统不再仅仅响应IO请求,而是主动参与到推理加速的全链路优化中[5]

算存协同的下一步是CXL(Compute Express Link)内存池技术的引入。CXL允许CPU和GPU共享远端内存池,打破传统内存容量的物理限制。X20000的架构设计中已预留CXL内存池接口,未来可能实现CPU(S90000)、GPU(UniPoD S80000)、存储(X20000)三者的内存空间统一编址,从根本上消除数据搬移开销[5]

七、结论

S90000和X20000是新华三在AI基础设施领域的两个重要工程成果。S90000通过1U 6CPU的全液冷架构,在物理层面解决了数据中心空间、能耗、散热三重约束下的算力密度问题,PUE 1.04的能效表现远超行业平均水平。X20000通过自研AI原生存储引擎,在MLPerf Storage v2.0权威测试中登顶RoCE方案榜首,证明了RoCE网络在超大规模AI训练中的可行性。

两者的联合价值在于"算存协同"——S90000提供高密度通用算力,X20000消除存储瓶颈,配合新华三AI智能云平台实现统一调度。这一架构设计的核心逻辑是:AI基础设施的效率不仅取决于单点性能,更取决于算力、网络、存储三者的协同效率。新华三在NAVIGATE 2026上发布的产品矩阵,正是围绕这一逻辑构建的全栈方案。

从产业角度看,液冷技术的必选化和AI原生存储的兴起,标志着AI基础设施正在从"堆硬件"向"系统工程"转变。未来的竞争不仅是单产品规格的比拼,更是全栈协同优化能力的较量。新华三以S90000+X20000为支点,在这一转型中占据了有利位置,但液冷标准化、长期可靠性验证、生态兼容性等挑战仍需时间来回答。

参考来源