亿级多物种单细胞大数据AI数据库scCompass正式发布,助力生命科学基础研究智能化

2025-05-02 16:00 王鹏飞

近日,在指南针联盟”(X-Compass Consortium)框架下,由中国科学院计算机网络信息中心联合中国科学院动物研究所等团队发布覆盖13个物种、超1亿单细胞转录组的多物种、高标准AI训练数据和数据库——scCompass(http://www.bdbe.cn/kun)。该平台的正式上线,为生命科学领域大模型研发和基础生物学研究提供了坚实的数据底座和一站式数据服务。相关团队于2025年5月在《Advanced Science》上发表了题为“scCompass: An Integrated Multi-Species scRNA-seq Database for AI-Ready”的研究论文。

PART.1 亿级大规模标准化单细胞数据库,覆盖13大物种

传统生命科学数据库多以单一物种、单一标准构建,难以支持大模型的泛化训练需求。scCompass独创高一致性、大规模多物种数据流程,严选自全球主流数据库(NCBI GEO、EMBL-EBI ArrayExpress、CNCB等),经统一质控、归一化与高精度细胞类型注释,最终集成来自人类、小鼠、猴、斑马鱼、果蝇、猪等13个物种共超1.04亿个单细胞的高质量数据,为横向生命规律发现、模型训练与多物种比对提供关键数据支撑。

scCompass整体框架

PART.2 创新生物学发现:稳定表达基因与器官特异表达基因全景挖掘

基于庞大的scCompass基础数据,团队首次系统性在单细胞分辨率下筛选出人类与小鼠的稳定表达基因(SEGs),为后续转录组分析提供新一代参照集合。同时,平台还全景刻画32种器官的器官特异表达基因(OSGs),并系统性构建各器官的特征性转录因子调控网络,为解析器官功能、疾病机制提供了参考。

PART.3 AI Ready:“即取即用”的生命大模型训练集与标杆评测

与现有数据库不同,scCompass专门面向AI大模型开发需求,深度整合主流单细胞基础模型(GeneCompass、scGPT、Geneformer)对数据结构、预处理等标准,提供涵盖不同规模、不同格式的“即取即用”训练数据集与支持模型的预训练检查点。Benchmarks评测显示,scCompass数据在下游任务上表现出色,显著优于同类数据库,为AI驱动的细胞类型注释、基因调控建模等分析提供全新动力。

模型细胞类型标注评估(scCompass-5M)

PART.4 用户友好的数据与分析平台:开放共享,智能高效

scCompass配备交互式门户,支持按物种、器官、样本等多维筛选数据,提供在线浏览、表达可视化、标准数据&模型免费下载。平台还集成无代码在线归一化、注释、性别矫正及基因特异性可视化工具,极大降低生物与AI研究门槛,赋能基础科学创新。

scCompass数据库(http://www.bdbe.cn/kun)

PART.5 前沿愿景:打造生命科学AI基础设施,引领智能化研究新范式

“指南针联盟”目前主要由中国科学院动物研究所联合计算机网络信息中心等团队组成,联盟的目标是建立数智驱动的生命科学研究新范式并解析生命的本质规律。

scCompass的发布标志着生命科学基础数据标准化和AI Ready化迈出坚实一步。未来,平台将持续扩展多组学、空间层面数据,持续推动数据即服务(DaaS)、模型即服务(MaaS)、智能评测等前沿开发,支撑更多科研与产业创新,助力“AI for Science”新范式落地。

论文链接:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202500870

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1