scCompass:亿级多物种单细胞转录组AI数据集入选国家数据局“高质量数据集典型案例”

2025-09-09 16:00 scCompass团队

为扎实推进“人工智能+”行动部署,加快高质量人工智能数据集建设,国家数据局组织开展高质量数据集典型案例征集工作。由中国科学院推荐,中国科学院计算机网络信息中心、中国科学院动物研究所联合构建的“scCompass:亿级多物种单细胞转录组AI数据集”成功入选国家数据局“高质量数据集典型案例”。

注:8月28日,在中国国际大数据产业博览会(简称“数博会”)期间,典型案例发布现场(国家数据局本次征集共收到来自国家各大部委、地方数据局推荐案例663份,最终遴选出104个典型高质量数据集案例。)

注:8月28日,在中国国际大数据产业博览会(简称“数博会”)期间,典型案例发布现场(“scCompass:亿级多物种单细胞转录组AI数据集”成功入选国家数据局“高质量数据集典型案例”)

scCompass针对传统生命科学数据库存在聚焦单一物种,标准不统一的问题,难以支持大模型的跨物种泛化训练的瓶颈,建设亿级多物种单细胞转录组AI数据集。scCompass严选自全球主流数据库,经统一质控、归一化与高精度细胞类型注释,最终集成来自人类、小鼠等13个关键物种超1.04亿个单细胞,为跨物种生命规律解析与大模型训练提供核心数据基座。scCompass同时深度整合主流单细胞基础模型对数据结构、预处理等标准,面向大模型需求涵盖不同规模、不同格式的“即取即用”训练数据集与支持模型的预训练检查点,在多个SOTA模型验证有效性。

scCompass(Advanced Science,2025)自2025年5月公开发表以来,已服务36个国家/地区,并支撑首个知识与数据联合驱动的多物种生命基础大模型GeneCompass(Cell Research,2024,封面文章)以及细胞图基础模型CGCompass(National Science Review,2025),并支撑XCompass生命科学智能数字细胞基础大模型赋能细胞治疗,未来将持续动态更新该数据集。

相关地址和公开文章:

scCompass数据集服务平台:http://bdbe.cn/kun

scCompass数据集文章:

https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202500870

GeneCompass(scCompass126M支撑):

https://www.nature.com/articles/s41422-024-01034-y

CGCompass(scCompass50M支撑) :

https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaf255/8172492

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1