科学地平线平台重磅升级,Grok-4惊艳,新增AI4S模型竞技场!

2025-08-05 16:00 CASDC

近日,由中国科学院计算机网络信息中心牵头建设的科学地平线(SciHorizon)平台迎来重要内容更新,其首创的“大模型+科学数据”评价榜单完成了系统级迭代升级。本次更新基于中国科技云的领先AI基础服务能力(CSTCloud AI Foundry),对平台交互界面和功能进行了全面深度优化,新增了模型横向对比、细粒度指标展示等多项核心能力,进一步提升了模型评测的可读性与实用性。在模型测试方面,平台对近期发布的Grok-4、Gemini 2.5 Pro Preview等主流大模型进行了深入评估,为科研用户提供了更具参考价值的对比结果,其中马斯克旗下人工智能公司xAI推出的Grok-4登顶综合榜单和多个学科领域榜单。同时,平台联合中国科学技术大学认知智能全国重点实验室,共同发布面向科研任务的大模型评测子平台——AI4Science对战竞技场。该竞技场旨在构建一个开放、互动、透明的大模型能力比拼环境,推动通用人工智能在科研领域的落地与发展。

模型侧亮点

随着新一代人工智能发展迅速,各类全新的模型和数据发布层出不穷,为持续追踪人工智能技术的最新进展,科学地平线平台对近期新发布的Grok-4、DeepSeek-R1-0528、Gemini-2.5-Pro-preview等全新大模型‌展开深度测试,正式推出‌新版权威榜单‌!以下是相关结果梳理:

Grok-4(74.55)领跑综合评分,在理解和推理维度表现优异,DeepSeek-R1-0528(74.26)和Gemini-2.5-pro-preview(72.93)紧随其后;而在知识维度上,Grok-4略逊一筹。

分学科来看,Grok-4在数学(78.13)、地球与空间科学(77.30)和生命科学(69.78)上表现优异,分别凭借强大的推理能力、卓越的理解能力和全面的学科知识取得领先,而DeepSeek-R1-0528则在化学(78.11)和物理学(73.11)占据领先位置。

除此之外,Gemini-2.5-pro-preview在数学(76.13)、化学(77.21)和生命科学(69.29)领域排名第二,且在化学领域的理解维度表现十分亮眼。


AI4Science对战竞技场

为加快人工智能与基础科学的融合创新,推动科学智能时代大模型的系统评估与实战验证,中国科学院计算机网络信息中心“科学地平线“项目组联合中国科学技术大学认知智能全国重点实验室陈恩红教授团队,正式发布面向科研任务的大模型评测平台--AI4Science 对战竞技场。该平台依托科学地平线平台冰鉴LLMEval大模型评测系统,现已面向科研人员与开发者全面开放。

“AI for Science 对战竞技场”以模型对战为核心机制,鼓励用户输入具有科研挑战性的问题,由系统调度多种大模型进行实时作答,并通过匿名展示、用户投票、回合评选等方式,动态评估模型在科研任务中的推理能力、表达质量与学术可信度。平台首批覆盖物理、数学、生物、化学、地理学等学科方向,支持科研问答、公式演绎、定理理解、跨学科推理等典型任务,致力于打造一个开放、互动、透明的大模型能力竞技评测环境。

平台将不断深耕面向AI4Science领域的大模型和科学数据综合测评,未来榜单会持续更新,敬请关注,欢迎联系我们!

平台和榜单链接如下

科学地平线平台官网:https://www.scihorizon.cn (文末点击阅读原文可直达)

平台备用地址:https://horizon.scidb.cn

模型侧榜单地址:https://www.scihorizon.cn/modelList

数据侧榜单地址:https://www.scihorizon.cn/dataList

联系邮箱:scihorizon@cnic.cn

TITLE背景介绍

科学地平线(SciHorizon)平台由中国科学院计算机网络信息中心牵头建设,专注于面向科学领域的高质量数据与人工智能大模型的评价与应用研究。平台牵头建设单位具有国家认证认可监督管理委员会(CNCA)批准的认证服务机构资质,是我国首个获批的科学数据应用和服务第三方认证机构,是国际数据委员会(CODATA)中国全国委员会秘书处依托单位。核心项目团队在科学数据、人工智能领域拥有丰富的科研和标准研发经验,在Nature Communications、Nature Cities、IEEE TKDE、ACM TOIS、KDD、SIGIR、WWW、NeurIPS、AAAI、IJCAI等国际顶级学术期刊和会议上发表学术论文200余篇,主持研发了包括IEEE国际标准、科学数据国家标准、可信人工智能和大模型行业标准在内的众多国内外标准。

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1