科学地平线榜单重磅更新:多模型同台竞技白热化,Gemini 3 Pro综合实力登顶亮眼。

Gemini-3-Pro-Preview(75.82)斩获综合评分桂冠,Qwen3-235B-A22B-Thinking-2507(75.68)与Grok-4(74.55)紧追不舍,分列二三位。其中,Gemini-3-Pro-Preview在多模态维度(86.59)与理解维度(83.45)表现尤为抢眼。
分学科领域来看:
- Gemini-3-Pro-Preview在化学学科(79.66)表现最佳,依托强大的知识储备领跑该领域。
- 国产Qwen3-235B-A22B-Thinking-2507在数学(80.12)与物理(76.16)两大领域均稳居榜首,彰显出扎实的知识功底与强劲的推理实力。
- Grok-4(77.30)地球与空间科学领域表现最佳,Gemini-3-Pro-Preview(76.42)与 GPT-5(76.11)紧随其后。
- 生命科学领域,Claude-Sonnet-4.5-Thinking(72.06)与Gemini-3-Pro-Preview(71.19)分列前两位。
本次评测中,尽管Gemini-3-Pro-Preview展现出压倒性的综合实力,但GPT-5、Qwen3-235B-A22B-Thinking-2507、Grok-4及Claude-Sonnet-4.5-Thinking也在多个学科赛道展现出抢眼能力,整体竞争呈现白热化态势。
平台将不断深耕面向AI4Science领域的大模型和科学数据综合测评,未来榜单会持续更新,敬请关注,欢迎联系我们!
平台和榜单链接如下
科学地平线平台官网:https://www.scihorizon.cn
平台备用地址:https://horizon.scidb.cn
模型侧榜单地址:https://www.scihorizon.cn/modelList
数据侧榜单地址:https://www.scihorizon.cn/dataList
联系邮箱:scihorizon@cnic.cn



