近日,由中国科学院计算机网络信息中心牵头建设的科学地平线(SciHorizon)平台迎来内容更新,“大模型+科学数据”评价榜单全面升级!自2025年1月22日平台发布后,科学地平线平台独创的“模型+数据”评价体系受到广泛关注,多家科研机构和国家科学数据中心都主动申请参与测评。值得一提的是,在第一期榜单中排名榜首的DeepSeek-V3模型好评如潮,更在春节期间火爆出圈,充分证明了科学地平线评价榜单的前瞻性和权威性。
随着新一代人工智能发展迅速,每天都有许多全新的模型和数据发布,为持续追踪技术前沿,科学地平线平台对近期新发布的Deepseek-R1、QwQ-32B、Gemini-2.0-Pro等10个全新大模型展开深度测试,并对材料科学领域中国学者发布的高影响力数据集进行综合评估,正式推出第二期权威榜单!以下是相关结果梳理:
模型侧亮点
- DeepSeek-R1(71.68)领跑综合评分,在推理、知识和价值观维度表现均衡,Gemini-2.0-Pro(68.02)和DeepSeek-V3(67.29)紧随其后;而在理解维度上,Gemini-2.0-Pro(77.60)拔得头筹。
- 分学科来看,DeepSeek-R1在数学(72.85)、化学(74.96)、地球与空间科学(75.40)、物理(69.59)上表现优异,分别凭借强大的推理能力、卓越的理解能力和全面的学科知识取得领先。
- 生命科学领域,DeepSeek-V3(65.68)和DeepSeek-R1(65.61)表现不相伯仲,均领先于其他模型,展现了扎实的知识积累。
- 除此之外,O1-Mini-20240912在数学(71.69)领域排名第二,Claude-3.5-Sonnet在化学(73.05)学科中排名第二,在价值观维度也保持领先。此外,QwQ-32B(63.64)在物理学科表现亮眼,O1-Mini-20240912(63.56)紧随其后,展现出强劲的推理能力。
- 值得注意的是,在本次评测中,中等规模模型展现出显著潜力。其中,QwQ-32B(63.64)和 DeepSeek-R1-Distill-Qwen-32B(65.68)在多个学科领域均表现出卓越的推理与知识能力,展现出与更大参数量模型相匹配的竞争力。
数据侧洞察
继上一期对地球科学和生命科学领域数据进行评价推荐后,本期针对材料科学领域的高影响力数据集进行了综合评估,并给出了推荐榜单。我们注意到,进入榜单的材料领域科学数据集具有以下特点:
a.数据主要来源于实验、计算以及基于文献的整理。数据内容覆盖材料基本结构性质以及不同类型材料的特性和合成路径等;部分数据集也关注了材料数据词表等服务多源数据集成和智能应用的共性基础数据。
b.受研究条件等限制,部分数据集涉及文献或材料类型的规模有限,但在所在领域已达到了当前较高的覆盖性,在可解释性表现中暂时给出了较好的分数;后续考虑到相关方向持续扩展的潜力,该项分数可能会更新。此外,较为遗憾的是,其中只有一个数据集在正式发布后进行了补充和更新。
c.本次推荐的10个数据集中只有1个数据集首发在了国内平台。一方面,自主科学数据服务平台需要进一步提升影响力;另一方面,我们也注意到美国国家标准与技术研究院推动材料数据基础设施建设,支持AI-Ready的材料数据服务。
特别感谢:本次测评工作得到中国科技云,中科信控,北龙云海提供的底层算力和服务支持。
平台将不断深耕面向AI4Science领域的大模型和科学数据综合测评,未来榜单会持续更新,敬请关注,欢迎联系我们!
平台和榜单链接如下
科学地平线平台官网:https://www.scihorizon.cn (文末点击阅读原文可直达)
模型侧榜单地址:https://www.scihorizon.cn/modelList
数据侧榜单地址:https://www.scihorizon.cn/dataList
联系邮箱:scihorizon@cnic.cn
背景介绍
科学地平线(SciHorizon)平台由中国科学院计算机网络信息中心牵头建设,专注于面向科学领域的高质量数据与人工智能大模型的评价与应用研究。平台牵头建设单位具有国家认证认可监督管理委员会(CNCA)批准的认证服务机构资质,是我国首个获批的科学数据应用和服务第三方认证机构,是国际数据委员会(CODATA)中国全国委员会秘书处依托单位。核心项目团队在科学数据、人工智能领域拥有丰富的科研和标准研发经验,在Nature Communications、Nature Cities、IEEE TKDE、ACM TOIS、KDD、SIGIR、WWW、NeurIPS、AAAI、IJCAI等国际顶级学术期刊和会议上发表学术论文200余篇,主持研发了包括IEEE国际标准、科学数据国家标准、可信人工智能和大模型行业标准在内的众多国内外标准。