数字经济时代,数据已成为驱动经济社会发展的关键要素。为高效、安全地共享和流通数据,近日国家数据局发布了《可信数据空间发展行动计划(2024—2028年)》(以下简称“行动计划”),旨在构建一个广泛互联、资源集聚、生态繁荣、价值共创、治理有序的可信数据空间网络,以显著提升各领域数据开发开放和流通使用水平,初步形成与我国经济社会发展水平相适应的数据生态体系。行动计划中明确提出“重点培育行业可信数据空间”,“推动基础科学数据集、高质量语料库融合汇聚,支撑人工智能行业模型跨域研发应用”。本文将从开放科学数据空间的必要性和内涵出发,探讨建设开放科学数据空间的实施路径。
可信数据空间
可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通利用基础设施。它是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间的建设,对于促进数据要素市场化配置、推动数据资源高效配置、激发全社会内生动力和创新活力具有重要意义。行动计划中提出,以建设可信可管、互联互通、价值共创的数据空间为重点,分类施策推进企业、行业、城市、个人、跨境可信数据空间建设运营。到2028年,可信数据空间标准体系、技术体系、生态体系、安全体系等取得突破,建成100个以上可信数据空间,形成一批数据空间解决方案和最佳实践。服务科技创新的开放科学数据空间是其中的重要组成部分。
开放科学数据空间是科技创新的必然需求
科学数据是国家重要的战略资源,也是推动科技发展、促进经济发展的关键要素。近年来,欧盟委员会发布欧洲数据战略,明确提出构建欧洲共同数据空间(Common Data Spaces)的宏伟蓝图,并规划涵盖欧洲开放科学云(European Open Science Cloud, 简称EOSC)在内的十大战略性行业及领域数据空间。这一战略的核心目标在于,通过打造一个统一的平台,实现欧盟范围内数据的有效、安全、跨行业及跨领域的共享与交换,以自主、隐私、透明、安全及公平竞争为基本原则,推动欧洲数据经济发展。作为欧洲开放科学的基础设施,EOSC集成了丰富的科学数据与服务,打破学科与地域界限,极大地促进了数据的共享与跨学科合作。它为科研人员提供了一个安全、便捷且高效的云端科研环境,加速了科学发现与创新。目前,EOSC已为180万欧洲研究人员、7000万全球科研人员提供了跨越国界与学科的开放服务,在推动欧洲科研合作与创新中发挥重要作用。
在我国,随着数据战略和科技创新工作不断深入,以天文、基因组为代表的科学数据正呈指数级增长。随着“大数据+人工智能”、“融合科学” 等新型科研范式的深入应用,科学数据的利用被置于一个“多主体、多要素、全景式”的开放协作环境。融合科学应用迫切需要跨中心数据的流通及协作,而科学数据分散化、差异化、孤岛化等特征使得科学数据的高效流通、利用及协作仍面临较大困难。构建开放科学数据空间,形成可打破数据孤岛、有效整合分布式科学数据资源的基础设施具有紧迫性和必要性。
什么是开放科学数据空间?
开放科学数据空间可以被定义为一个旨在促进科学数据的开放共享、标准化管理、安全存储与高效利用的平台或环境。其内涵包括数据的共享与开放、数据的质量与可信度、数据的安全与隐私保护等。
开放科学数据空间主要面向科学研究和学术领域,强调数据的完整性、可追溯性和长期保存。通常用于存储、管理和共享来自不同科研机构、高校、企业等科研单元在科学研究过程中产生的科学数据,支持科学研究的合作和协同创新。
行动计划提出,可信数据空间包含企业、行业、城市、个人、跨境五大类别。与之类似,开放科学数据空间具有不同的类型,包含机构科学数据空间、领域科学数据空间,以及跨域协作科学数据空间等,这些数据空间彼此交互,将呈现出复杂的网络结构。

图1 科学数据空间类型与结构
通过建设开放科学数据空间,将最大程度的屏蔽科学数据的差异性,可以实现不同领域、不同机构之间的数据互联互通,推动数据的共享与应用,支撑新型科研范式下多学科跨领域融合分析需求,提升我国科学数据中心群的协同服务能力,促进科技创新。
基于科学数据网络技术,构建开放科学数据空间
行动计划指出,可信数据空间的发展要重点发展可信管控能力、资源交互能力、价值共创能力、应用成效和安全保障。在可信管控能力、资源交互能力方面,采用科学数据网络技术(Research Data Network),可快速实现其中的数据发布发现能力、互操作能力、空间互联互通能力、日志存证与溯源能力,从而进一步推动开放科学数据空间的建设。
科学数据网络技术以科学数据资源为核心要素,用以连接不同数据源。其目标是实现科学数据资源的透明访问、在线消费和互联互通,在标识与寻址、安全与访问控制、数据端点协议、数据格式描述、数据流在线供给、数据在线服务、数据目录、数据关联融合、数据协同服务等方面为构建开放科学数据空间提供了坚实的技术基础。
“十四五”期间,国家基础学科公共科学数据中心、国家空间科学数据中心、国家冰川冻土沙漠科学数据中心、国家农业科学数据中心、国家对地观测科学数据中心、国家气象科学数据中心,联合数据空间技术与系统全国重点实验室,共同建设形成多学科跨领域数据融合服务网络CoNet。CoNet面向“融合科学”场景下多中心科学数据协作的需求,通过数据任务智能编排、跨中心任务协同调度、基于区块链的存证溯源、大数据流水线等技术手段,实现了跨领域、跨地域多个科学数据中心之间数据、计算、模型的协同调度,满足了“黄河中上游淤地坝生态效益评估”、“跨节点CATCH卫星数据流转”等应用的需求。

图2 多学科跨领域数据融合服务网络CoNet
综上所述,行动计划的发布为我国数据治理和数据基础设施建设指明了方向。在此背景下,作为推动科学数据高效利用的重要数据基础设施,建设开放的科学数据空间显得尤为必要。基于科学数据网络技术,加强可信管控能力、价值共创能力、应用成效和安全保障,构建起一个可信、可管、互联互通、价值共创的数据空间生态,不仅有助于推动数据要素赋能科技创新,更是能够为数字经济的高质量发展提供有力支撑。
相关信息详见:
1、关于向社会公开征求《可信数据空间发展行动计划(2024—2028年)》意见的公告
https://mp.weixin.qq.com/s/AeejoraZiqtFRaK9mo2_jw
2、科学数据网络:概念、系统与应用
https://mp.weixin.qq.com/s/T6Ukb58Xb88eTv71rMY9nQ



