针对科学数据汇交治理中质量评估主观性强、跨模态数据检索难、业务流程引导不直观等痛点,国家基础学科公共科学数据中心(以下简称“国家基础数据中心”)正式上线智能搜索、知识问答、智能审核等AI智能体。实现了从文件级质量分析到自动化业务导航的全链路智能化升级,为科研工作者提供更智能、更精准、更高效的数据资源服务。
智能搜索与业务知识导航
为提升科学数据的可发现性与易用性,智能体打通了国家基础数据中心的底座知识库,重塑用户与数据资源、平台服务的交互方式。
- 数据集智能搜索:告别关键词匹配与目录翻查。科研人员可使用自然语言直接描述需求(如:“我想做自动驾驶的训练,需要能够识别行人的数据集,有哪些推荐?”),智能体将精准定位数据资源,并链接数据下载申请快速获取数据。
- 业务流程百事通:“数据汇交流程如何启动?”“项目汇交数据该如何提交?”……用户只需像对话一样提问,智能体便能基于对国家基础数据中心全业务流程的理解,提供步骤清晰、指引明确的实时解答,大幅降低学习与沟通成本,提升科研工作效率。

图 1 知识问答首界面

图 2 智能搜索首界面
从“经验抽检”到“全量智能审核”
国家基础数据中心已服务超过4000个国家重点研发计划项目数据汇交,随着项目数量快速增长和数据质量及赋能要求提高,传统依赖人工抽检的经验模式,正面临数据量激增与交叉学科复杂度提升的双重挑战。智能体在数据汇交环节,采用一套客观、多维、可量化的指标开展数据质量评价,可供数据管理机构使用。
- 文件级精细化质量审核:深入数据集文件逐一扫描,基于大模型的语义理解能力,能够针对非规范命名、内容逻辑冲突等提供专业的评审建议,确保数据在汇交阶段即符合科学标准。
- 全生命周期质量曲线与缺失侦测:智能体自动绘制数据质量演进曲线,并自动侦测关键特征缺失、量化数据缺损对统计效力的影响,给出针对性的补齐建议。
- 标准化综合质量评分:基于多项学术指标,智能体为每个数据集生成一份整体效能评分报告。这一量化指标为数据的分级分类管理、开放共享提供了科学的准入依据。

图 3 数据集质量评估总况

图 4 数据集质量评估与收敛性分析
未来,国家基础数据中心将持续优化智能体的领域知识深度,致力于为用户提供更具颗粒度的质量洞察、更精准的知识检索及更高效的科研服务支撑。
请将以下链接复制到浏览器中打开,即可立即体验:https://www.nbsdc.cn/
国家基础数据中心由中国科学院计算机网络信息中心联合中国科学院、教育部、工业和信息化部、交通运输部、国防科技工业局、国家林业与草原局等下属44个研究所共同建设, 旨在汇集管理物理、化学、材料、动物、 植物、交通和信息科学等基础学科领域及典型区域长期科研活动积累的科学数据, 以及上述领域政府预算资金支持项目生产的基础学科科学数据。国家基础数据中心承担服务国家重点研发计划以及国家科技重大专项项目科学数据汇交。截止到目前,已服务95个重点专项4000余个科技项目科学数据汇交,累计在线发布科学数据集超4万个。



