科学地平线(SciHorizon)平台由中国科学院计算机网络信息中心牵头建设,专注于面向科学领域的高质量数据与人工智能大模型的评价与应用研究。在人工智能赋能科学研究(AI4Science)的时代背景下,平台围绕“大模型科学领域能力”和“AI-Ready科学数据质量”两个核心方向,构建了综合性评价体系和权威评估基准,力争打造人工智能时代技术赋能科学的磨刀石,形成促进学科发展和技术创新的助推器。科学地平线平台也是国际首个从“数据+模型”角度,面向AI4Science的综合评价平台。
01 大模型科学领域能力评估
模型侧榜单面向科学领域能力表现,原创性地构建了5大评价维度(知识、理解、推理、多模态、科学价值观)、16个子维度(知识真实性、科学事实理解、数值推理、科学图表理解、遵循学术诚信等)的综合评价体系。基于从项目组公开收集和自主研发的5大学科共计40.67万科学能力测评试题,通过采样算法系统性地对过去一年来主流开闭源模型和商业大模型API进行了全面评测。
AI4Science大模型测评指标体系:
- 知识:评估大模型对不同学科领域关键知识的掌握与运用能力
- 理解:评估大模型对不同学科领域科学事实的理解能力
- 推理:评估大模型在不同学科领域中的推理能力
- 多模态:评估大模型对不同学科领域多模态信息的处理能力
- 价值观:评估大模型在科学工作场景中是否具备正确的价值观
模型侧评测结果显示:
- 综合评分方面,国内开源大模型DeepSeek-V3取得了最好的成绩,国外闭源模型Claude 3.5 Sonnet,O1-Mini则紧随其后,开源模型Llama3.1-70B和闭源模型GLM-4-Plus也位居前列,国内其他模型方面,阿里巴巴通义千问和字节跳动的豆包大模型也获得了不错的成绩,反映了这些模型具有较为均衡和全面的性能。
- 分维度方面,知识维度和理解维度均是DeepSeek-V3表现最佳,O1-Mini在推理维度表现最佳,在价值观维度则是Claude 3.5 Sonnet表现最佳。
- 学科方面,数学、物理O1-Mini表现最好,但是O1-Mini在其他学科表现和其他模型有所差距,化学方向是Claude 3.5 Sonnet表现最好,生命科学、地球和空间科学方向均是DeepSeek-V3表现最好。
02 高质量AI-Ready科学数据推荐
面向智能化应用需求,平台选取近年来发布的地球科学、生命科学领域的我国自主研发的高影响力数据集,从规范性、可用性、可解释性、合规性等4个方面15个子维度,采用定量定性相结合的方式进行综合评估,在确保数据高质量的前提下,强化了数据的语义丰富性与机器可操作能力,并给出应用场景推荐,为AI4Science创新应用提供“潜力”数据的同时,也为AI-Ready科学数据建设提供参考。
高质量AI-Ready科学数据推荐原则:
- 规范性:评估科学数据质量,判断数据内容是否准确、完整、及时
- 可用性:参照FAIR原则(可发现、可访问、可互操作、可重用),评估科学数据可共享水平
- 可解释性:评估科学数据信息的多样性、丰富性以及AI应用适配水平
- 合规性:评估科学数据是否可合规使用
通过评测,选取了地球科学、生命科学领域各10个推荐科学数据集。其中:
- 地球科学领域推荐数据集覆盖地表、遥感、固体地球、大气模式等多个地球科学方向,面向同一科学问题或要素,整合加工多源数据,构成了长时间序列、广空间覆盖、多特征要素、语义信息丰富的科学数据集。数据模态以表格、影像数据为主,和AI模型方法具有较好的适配性。
- 生命科学领域数据集百花齐放,既有面向AI应用的语义信息和基准数据集,也有面向某种疾病或组织器官的综合数据集,还有集成各类分析工具的综合服务数据库。生命科学领域数据类型与格式多样,且具有一定专业性,在AI任务应用中需要一定的专业工具或适配能力支撑。
值得一提的是,相关模型和数据榜单均赋有唯一的CSTR科技资源标识编码,确保结果的唯一和可溯,平台和榜单链接如下:
科学地平线平台官网:https://horizon.scidb.cn/(点击阅读原文可直达)
模型侧榜单地址:https://horizon.scidb.cn/modelList
数据侧榜单地址:https://horizon.scidb.cn/dataList
03 背景介绍
科学地平线平台牵头建设单位具有国家认证认可监督管理委员会(CNCA)批准的认证服务机构资质,是我国首个获批的科学数据应用和服务第三方认证机构,是国际数据委员会(CODATA)中国全国委员会秘书处依托单位。核心项目团队在科学数据、人工智能领域拥有丰富的科研和标准研发经验,在Nature Communications、Nature Cities、IEEE TKDE、ACM TOIS、KDD、SIGIR、WWW、NeurIPS、AAAI、IJCAI等国际顶级学术期刊和会议上发表学术论文200余篇,主持研发了包括IEEE国际标准、科学数据国家标准、可信人工智能和大模型行业标准在内的众多国内外标准。
平台将不断深耕大模型和科学数据的综合测评,随着新一代人工智能的高速发展,榜单覆盖的模型规模和科学数据领域等将不断扩展,榜单将持续迭代,敬请关注,欢迎联系我们!
联系邮箱:scihorizon@cnic.cn