2025年,全国数据生产总量达52.26泽字节(ZB),同比增长27.28%——在4月29日开幕的第九届数字中国建设峰会上,《全国数据资源调查报告(2025年)》(以下简称《报告》)对外发布,亮出了数据资源的“家底”。
这是我国第三次对数据资源进行“全面体检”。2024年,国家数据局联合相关部门首次开展全国数据资源调查,对数据资源进行“摸底”。本年度调查将“词元”(Token)调用、企业数据要素投入等产业发展热点作为重点内容。调查结果显示,我国数据要素市场化价值化进程显著提速,数据资源供给体系、数据流通体系和数据开发利用体系协同演进,正由数据资源规模扩张向数据要素价值释放跃升。
在数据总量方面,从2023年到2025年,我国年度数据生产总量从32.85ZB增长到52.26ZB,数据资源规模保持高速增长态势。2025年,我国数据生产总量约占全球的27.44%。
再看算力布局,《报告》提到,截至2025年年底,全国智能算力规模达159万PFLOPS(FP16)(每秒千万亿次浮点运算——记者注),通用算力向智能算力的代际更替加速,成为支撑人工智能发展的关键基础设施。目前,八大国家算力枢纽(含十大集群)智算规模已占全国智算规模的80%以上。
值得注意的是,在2025年我国生产的52.26ZB数据中,系统软件、人工智能产生的数据量达到了26.92ZB,首次超过物联感知数据量,用于人工智能训练、开发和应用的数据增长显著。
“人工智能的发展催生数据生产新方式。”国家数据局党组书记、局长刘烈宏在峰会现场说,当前人工智能正加速演进,呈现从大语言模型向多模态模型拓展、从基础模型向行业模型深化、从内容生成向智能体决策执行跃升、从数字智能向具身智能延伸等趋势,为数据生产带来结构性变化。
以具身智能为例,推动相关技术加速突破,数据就是核心驱动力。宇树科技股份有限公司创始人、首席执行官王兴兴表示,当前AI发展已经证明了一个关键结论:凡是有足够高质量数据的领域,现有AI技术就足够有能力解决问题。但他也强调,人形机器人领域的数据还十分稀缺,希望在今年以及未来几年,能大规模推进全身机器人的运动数据采集。
作为人工智能大模型处理数据的最小信息单元,词元使智能服务变得可计量、可定价、可交易,反映了智能经济活跃程度。根据《报告》的统计,2025年,全国日均词元调用量从年初的超万亿增长到年末的100万亿,呈现指数级增长;全年词元累计调用量约为21100万亿。
数据流通是数据从“资源”转化为“资产”的关键环节。《报告》指出,当前数据流通交易效果初步显现,2025年,全国数据跨境流通总量为142.34艾字节(EB);数据跨省流通总量为2949.12EB。随着全国一体化数据市场建设加快推进,市场活力进一步激发,为高质量数据付费的市场共识正在形成。
有了丰富的数据资源,还要充分地开发利用。《报告》提到,随着“数据要素×”行动、公共数据“跑起来”示范场景建设、国有企业数据效能提升行动等纵深推进,数据融合应用和场景建设不断深化,数据要素价值正加速释放。
其中,2025年,公共数据用于共享、开放、授权运营的数据量均实现快速增长,申请共享的数据集数量同比增长近30%。公共数据资源开发利用成效显著,带动各行业数据加快融合应用,场景覆盖产业发展、教育科技、医疗健康、民生服务、基层治理等领域。
我国是全球首个将数据列为生产要素的国家。“十五五”规划纲要提出,激活数据要素潜能,加快数智技术创新,深化拓展“人工智能+”,赋能经济社会发展和治理能力提升,促进生产方式深层次变革和生产力革命性跃迁。
2026年是“十五五”开局之年,也是“数据要素价值释放年”。《报告》预测,2026年以智能体为代表的代理型人工智能快速发展,海量智能体之间的协同交互将产生大规模机器间数据,传统以“数据采集-存储-处理”为主的业务链条,将逐步转向“实时感知-实时决策-持续优化”的业务闭环模式。
本报福州4月29日电
中青报·中青网记者 贾骥业
