国家数据局在第九届数字中国建设峰会上发布的《全国数据资源调查报告(2025年)》显示,2025年全国数据生产总量达到52.26ZB,同比增长27.28%[6]。这一增速较上年的25%左右进一步提升,反映出数字经济各领域数据化进程的加速。
从数据来源结构看,行业数据仍是最大的数据生产来源,覆盖工业互联网、金融交易、电子商务、社交媒体等领域。值得关注的是,AI训练和推理过程中产生的数据量正在快速增长,尤其是大模型在推理阶段产生的中间数据、日志数据和反馈数据,正在成为数据增量的重要组成部分。
《全国数据资源调查报告(2025年)》中披露的一个关键数据是:2025年全国Token调用量达到21100万亿[6]。更为重要的是,推理算力需求首次超过训练算力需求,标志着中国AI产业正从"重训练"向"重推理"转型。
这一转变具有深远的产业意义。过去几年,AI算力基础设施主要围绕大模型训练需求建设,追求峰值算力、大规模集群互联能力。但随着大模型逐步成熟并进入规模化应用阶段,推理算力的需求开始爆发式增长。推理场景的特点是:并发量大、时延敏感、需求波动性强,这对算力基础设施提出了全新的要求。
从算力调度角度看,推理场景更适合分布式部署——将推理服务下沉到靠近用户的边缘节点,降低网络时延,提升用户体验。这与"东数西算"的战略布局形成了有趣的互补:训练任务集中在西部大型数据中心,推理任务则分布在东部城市群的边缘计算节点。
报告显示,截至2025年末,全国已建成高质量数据集超过11万个[6]。这些数据集覆盖政务、工业、医疗、金融、交通、教育等重点行业,是AI大模型训练和行业应用落地的关键基础。
高质量数据集的建设被业界称为AI基础设施的"软基建"。如果说智算中心、GPU集群是AI的"硬基建",那么高质量数据集就是AI的"软基建"——它决定了模型能"学"到什么,学得有多好。在数据要素市场化的政策框架下,高质量数据集的建设正从企业自建走向市场化供给,专业数据服务商开始提供标准化的训练数据产品。
从行业分布看,政务数据集的开放共享进展最为显著,多个省市已建立政务数据开放平台;工业数据集的增长最为迅速,工业互联网平台汇聚了大量设备运行和工艺过程数据;医疗数据集面临的最大挑战仍是数据隐私和合规,联邦学习等技术正在成为破解之道。
本届峰会上,数据基础设施技术社群的成立成为数据要素领域的重要事件[6]。该社群旨在推动数据基础设施相关技术标准的制定和推广,涵盖数据采集、存储、加工、流通、治理等全生命周期。
数据基础设施是支撑数据要素市场化配置的物理和虚拟基础。它不仅包括传统的数据中心、存储系统,还包括数据交易平台、数据安全技术、数据治理工具等。随着数据被正式列为生产要素,数据基础设施的建设被提升到与交通、能源等传统基础设施同等重要的战略高度。
技术社群的工作方向包括:制定数据质量评估标准,解决"什么才算高质量数据"的度量问题;推动数据流通接口标准化,降低数据共享的技术门槛;研究数据确权与定价的技术方案,为数据交易提供技术支撑;以及探索隐私计算、联邦学习等技术在数据流通中的应用[6]。
国家数据局局长刘烈宏在峰会上系统阐述了数据要素市场化的制度框架[5]。核心内容包括三个方面:
在AI数据基础设施层面,数据要素市场化的推进意味着AI训练数据将从"自采自用"走向"市场采购"。专业数据服务商将提供经过清洗、标注、脱敏处理的标准化数据产品,AI企业可以像购买云计算资源一样购买训练数据。这将显著降低AI开发的数据获取成本,加速AI应用在各行业的落地。
数据要素市场化与算力基础设施建设正在形成深度协同。一方面,大规模数据集的加工和训练需要巨大的算力支撑;另一方面,智算中心的效率提升又依赖于高质量训练数据的持续供给。这种"数据-算力"双轮驱动模式,正成为中国AI产业发展的核心特征。
从全国一体化算力网的视角看,数据要素的跨区域流通与算力的跨区域调度天然匹配。东部地区拥有丰富的行业数据和应用场景,西部地区拥有充裕的算力资源和低成本电力。通过全国一体化算力网,数据可以被高效地传输到西部进行训练,训练好的模型再部署到东部进行推理服务。
中国移动在峰会上展示的TokenHub平台,正是"数据-算力"协同的典型实践。TokenHub面向大模型推理场景,通过Token调度实现算力资源的智能匹配[10]。华为昇腾一体机已有350+合作伙伴推出产品,覆盖训练和推理全场景[16],这些软硬件协同的解决方案正在降低数据要素价值释放的技术门槛。
第九届数字中国建设峰会揭示了数据要素与AI数据基础设施领域的三个关键趋势:
展望未来,数据要素市场化配置改革将进一步深化,数据交易市场规模持续扩大,AI数据基础设施将从"量"的积累走向"质"的提升。数据基础设施技术社群的标准制定工作将为行业提供统一的规范和指引,推动数据要素的高效流通和价值释放。