智算中心网络技术分论坛圆桌讨论深度解读
本次云网智联大会智算中心网络技术分论坛的圆桌讨论环节,围绕"大模型与智算中心网络架构"主题展开深入交流。中国信息通信研究院科技委主任蒋林涛担任主持人,嘉宾阵容涵盖运营商、设备商、互联网企业、芯片厂商等多方代表[1]:
围绕大模型与智算中心网络架构,与会嘉宾达成了五大核心共识[1]:
主持人蒋林涛在圆桌讨论前的主旨演讲中,从更深层次阐述了智算中心网络面临的技术挑战。他指出,智算中心网络是支撑人工智能大模型训练、推理及各类智能应用的核心基础设施,其核心功能是实现算力资源的高效连接、调度与协同,是专门为支持大模型运行而设计的网络系统[1]。
蒋林涛进一步指出,当前智算中心网络的设计思路主要围绕高速、轻载展开,但资源调度面临诸多困难,网络资源管控的精准性也有待提高。智算中心经常出现因网络问题导致的同步难题,其网络主要依赖高速以太网实现同步,存在较大挑战[2]。他强调,大模型对网络能力的要求应该与网络架构高度适配,未来智算中心将达到十万卡规模,这是产业必须实现的目标。
本次圆桌讨论的最大价值在于,产业一线专家在五个核心方向上达成了高度共识,这为智算网络的技术路线选择提供了明确的产业指引。其中最值得关注的是"MoE流量模型的不确定性增强"这一判断——MoE架构的采用正在从根本上改变AI训练的通信模式,传统的基于流量预测的网络优化策略面临失效风险,这为基于逐包调度和拥塞反馈的新型网络协议(如GSE)提供了强大的驱动力。
"训练向推理转移"的共识也具有重要战略意义。随着推理算力需求占比持续攀升,智算网络的优化目标需要从单纯追求训练吞吐量转向兼顾训练效率、推理并发和存储访问的多元目标。这对网络架构设计提出了全新的要求,也为网络设备厂商和智能网卡供应商创造了新的市场空间。光电协同、Scale Up/Out协同等方向的技术创新,将成为未来2-3年智算网络产业的竞争焦点。整体来看,智算中心网络正从"连接算力"迈向"支撑智能服务",其架构创新与工程实践将成为AI规模化落地的重要基石。