近期,国家基础学科公共科学数据中心的研究成果《<科学数据溯源元数据>国家标准研制与实践》发表在《标准科学》2025年第10期。以下是论文精要版。

论文详情
为应对科学数据动态演变过程中面临的质量评价困境与语义描述难题,构建统一、规范的科学数据溯源元数据标准至关重要。本文系统梳理了GB/T 43707—2025《科学数据溯源元数据》国家标准的研制历程、设计框架及核心内容,同时对该标准的实践应用与推广情况进行跟踪分析。从实践价值来看,该标准不仅可以有效提升科学数据的语义描述精准度,为科学数据质量评价工作提供可落地、可执行的溯源操作规范,其颁布与实施还填补了我国科学数据管理领域在溯源元数据标准方面的空白,通过对科学数据溯源模型的描述信息进行标准化约束,为数据质量验证、数据安全治理及数据共享重用提供可靠的技术支撑。
一、标准研制过程
2022年12月,《科学数据溯源元数据》国家标准正式获批立项,该标准是我国科学数据治理领域的自主创新成果,由科学部提出、全国科技平台标准化技术委员会(SAC/TC 486)归口管理,其研制汇聚16家核心单位,包括8个国家科学数据中心及8家科研院所。在研制过程中,标准起草组围绕元数据标准、数据溯源描述模型等关键问题开展系统研究,通过文献调研、工作组讨论、专家研讨等多种方式攻克技术难点,最终明确科学数据溯源元数据的核心框架与内容模块。标准研制过程历经了预研、征求意见、技术审查、报批、发布实施等关键阶段。
二、标准主要内容
(1)标准框架。《科学数据溯源元数据》构建了三维度元数据架构体系(见图1)。其中,数据集元数据描述了数据实体基本信息与状态特征,活动元数据描述了数据全生存周期关键节点,执行实体元数据描述了活动参与主体。

图1 科学数据溯源元数据构成示意图
(2)标准描述方法与编写规范。《科学数据溯源元数据》依据GB/T 30523的摘要表示方式定义描述溯源元数据,每个元素包含中文名称、定义等关键要素,确保描述的规范性。研制中参考引用多项标准。同时,严格按 GB/T 1.1-2020进行编写,保障编写质量。
(3)标准核心字段。《科学数据溯源元数据》规定了科学数据溯源元数据总体要求、三类核心元数据及示例,适用于数据溯源跟踪记录。具体描述字段见图2。其中,数据集元数据含25个元素,聚焦数据内容相关信息;活动元数据含3个元素,描述数据溯源的各类活动;执行实体元数据含8个元素,描述数据活动相关的人员、工具等信息。

图2 《科学数据溯源溯源元数据》描述字段
三、标准实践与推广
在《科学数据溯源元数据》国家标准征求意见阶段,起草团队通过定向征集意见的方式,向51个国家科技资源共享服务平台及全国信息安全标准化技术委员会(SAC/TC 260)同步征询反馈,最终在实践层面达成广泛共识,为标准后续完善奠定基础。2025年1月该国家标准正式发布后,中国科学院网站率先对发布信息进行报道;作为标准第一完成单位,中国科学院计算机网络信息中心也通过多渠道开展标准推广以扩大其行业影响力。未来,将继续扩大《科学数据溯源元数据》国家标准应用范围,为我国科学数据治理工作的高质量发展提供助力。
本文引用格式:朱艳华,胡良霖,廖方宇,高瑜蔚,赫运涛,王志强.《科学数据溯源元数据》国家标准研制与实践[J].标准科学,2025,(10):93-98.



