AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

当前顶尖AI模型是否真能“看懂”物理图像?

全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%

新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。

内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出,于近日正式开源

团队在实验中系统性评估了LLM/MLLM在复杂科学图表与理论推导耦合任务中的表现。

结果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型准确率都不足55%,暴露出多模态推理的巨大挑战。

团队表示,目前该基准正在ICML 2025 AI for MATH Workshop中开放评估,欢迎学界与工业界的团队来挑战。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

为什么需要SeePhys?

近年来,数学在大语言模型(LLMs)的推理能力评估中大放异彩,而物理学由于其具有与真实场景的强相关性和更复杂的图像信息,正在多模态测评中得到越来越多的重视。

物理学不仅知识体系庞大、逻辑链条复杂,而且天然地将抽象世界规律与千变万化的视觉图像紧密结合。无论是电路图、受力分析图,还是费曼图等,都挑战了多模态大模型根据图表理解世界本质规律的能力。

现有物理学基准或缺乏视觉组件,或仅覆盖单一的知识层级,难以全面评估模型的物理思维能力。

SeePhys的诞生填补了这一空白,它旨在回答当前的顶尖AI模型是否真的“看懂”了物理图像,并能像人类科学家一样结合图像进行思考。

SeePhys的独特之处在于:

  • 知识层级跨度大:从初中到博士,从经典力学到量子场论,全面覆盖了不同知识阶段和研究领域;
  • 强视觉依赖:根据图表是否包含必要解题信息进行分类,优先选择具有强视觉依赖的问题;
  • 跨模态耦合:纯多模态基准,需同步处理符号公式、几何关系与真实世界建模。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

具体来看,SeePhys具有以下几个关键属性。

首先是全谱系覆盖

  • 2000道题目+2245张图表,涵盖7大物理领域(经典力学、电磁学、量子物理等);
  • 8个知识层级:初中、高中、奥赛(初级/高级)、本科(低年级/高年级)、硕士、博士资格考试;
  • 21类异构图表:包括电路图、时空曲率图、光电效应示意图等。

其次是不同的视觉富集程度

  • Vision-Essential(75%):图表含解题必需信息(如坐标系数值、电路拓扑、费曼图);
  • Vision-Optional(25%):图表仅辅助说明(如场景示意图)。

还有多模态增强设计

  • 提供纯视觉副本(问题文本与图表融合为单张高分辨率图像);
  • 四种评估模式:文本+图表(TV)、文本+描述(TC)、纯文本(TO)、纯视觉(VO)。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

实验发现

通过对28个主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大规模测试,研究团队总结以下结论:

视觉-文本对齐能力的缺陷:

  • 最佳模型Gemini-2.5-Pro准确率仅54.9%,即使是初中物理题正确率也不及70%。
  • 纯语言模型表现意外接近多模态模型,如DeepSeek-R1(42.2%)vs o3-mini(40.3%),且模型在视觉依赖性较低的问题中准确率远高于视觉信息富集的问题,暴露了当前顶尖MLLM仍存在巨大的视觉-文本对齐问题。
  • 模型对特定图表类型(波动方程图、电路图)存在系统性识别障碍。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

“看见”对于“思考”的重要性:

  • 对于视觉富集的问题,添加对图像的文本描述和直接输入图文交织问题均相对纯文本问题提升巨大。
  • 即使是非必要性图表也能辅助模型理解问题(如Claude-3.7-Sonnet在Text+Vision条件下相对Vision Only准确率提升30.2%),表明适当的视觉提示能够帮助模型理解问题本质。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

知识注入显现出边际效应:

  • 较弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于灾难性遗忘现象,在高年级问题上精度下降幅度巨大,而较强模型则下降较为平缓,表明知识注入带来的性能提升已经初步显现边际效应。
  • 当前模型更擅长记忆而非逻辑推理(如高级奥赛题反而比知识考察更深的博资考的准确率更低)。
  • 即使是初中和高中难度的物理题也并未被AI完全解决,物理学对于MLLM依然十分困难。

错误推理模式归纳

研究团队对强模型o4-mini, Gemini-2.5-Pro与弱模型Qwen2.5-VL-3B共同错误的100个样本进行人工分析。

然后,归纳得出了9种错误的推理模式,包括视觉误读、文本误读、建模错误、错误假设、数值计算错误、过度简化、总结错误、过度思考和重复输出。

所有三个模型都表现出明显的建模缺陷(例如定理和公式误用),同时表现出相对较少的文本误读和数值计算错误。

而过度思考和过度简化的错误频率在模型之间存在显着差异,且较小的Qwen2.5-VL-3B出现了高重复输出率(21%)。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

参赛链接:https://www.codabench.org/competitions/7925/
挑战赛详细信息:https://sites.google.com/view/ai4mathworkshopicml2025/challenge
ICML workshop 主页:https://sites.google.com/view/ai4mathworkshopicml2025/home

论文:https://arxiv.org/pdf/2505.19099
项目主页:https://github.com/SeePhys/seephys-project

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/17597.html

(0)
人脑网的头像人脑网
上一篇 2025年5月29日 下午3:23
下一篇 2025年5月29日 下午3:24

相关推荐

  • 矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

    金磊 发自 凹非寺 天下苦大模型矩阵乘法久矣。 毕竟不论是训练还是推理过程,矩阵乘法作为最主要的计算操作之一,往往都需要消耗大量的算力。 那么就没有一种更“快、好、省”的方法来搞这事儿吗? 有的,香港中文大学最新一篇仅10页的论文,便提出了一种新算法: 能源可节省:5%-10% 时间可节省:5% 论文作者之一的Dmitry Rybin表示: 这么算矩阵乘法,…

    2025年5月18日
    800
  • 生数科技廖谦:多模态技术定将催生全新内容平台,实现完全个性化

    多模态生成技术持续突破内容创作的边界。 生数作为多模态领域的明星玩家,所提供的技术正推动AI视频创作进入系统性可用新阶段。 在本次第三届AIGC产业峰会上,生数科技产品副总裁、Vidu产品负责人廖谦分享了这样的观点: 为了完整体现廖谦的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子位主办的A…

    2025年4月18日
    2200
  • GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

    医疗大模型知识覆盖度首次被精准量化! 在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。 他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。 该研究已被WWW 2025会议Web4Good Track录用为口头报…

    2025年4月30日
    1200
  • 大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

    大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜 问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9&…

    2025年5月28日
    500
  • 细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

    MultiGO团队 投稿 从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。 相关研究成果目前已入选CVPR 2…

    2025年5月5日
    1100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信