多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力?

来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。

过去的评估基准主要集中于评估多模态输入和纯文本推理过程。

而RBench-V系统性评估了当前主流大模型基于“画图”的视觉推理能力:

比如在图中画出辅助线、描点连线、绘制光线路径、标注目标区域,等等。

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

结果发现,即使是表现最好的模型o3,在RBench-V上的准确率也只有25.8%,远低于人类的82.3%。

这篇论文在reddit machine learning社区引发了讨论,有网友评价:

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

RBench-V:专为模型视觉推理设计

为了评估模型的跨模态推理能力,RBench-V精心设计并筛选了共计803道题目,涵盖几何与图论(数学)、力学与电磁学(物理)、多目标识别(计数)以及路径规划与图形联想(图形游戏)等多个领域。

与以往仅要求文字回答的多模态评测不同,RBench-V的每一道题都明确要求模型生成或修改图像内容来支持推理过程:

简单地说,就是让大模型像人类专家一样,通过绘制辅助线、观察图形结构等可视化方式进行思考。

这种对“画出图以辅助思考”过程的强调,对模型的视觉理解和图文协同推理能力提出了全新的要求。

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

评测发现,尽管GPT-4o、Gemini、o3等新一代大模型标榜具备“多模态理解与生成”能力,它们在真正需要图像输出参与推理的问题上仍显得力不从心。

主流大模型的评测结果:远不及人类水平

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

在RBench-V的评测中,即便是当前业界最强的闭源模型,也远远比不上人类视觉推理能力。

OpenAI发布的旗舰模型o3以25.8%的整体准确率排名首位,Google最新推出的Gemini2.5紧随其后,得分为20.2%。

但这两者的表现与人类专家高达82.3%的平均准确率相比,依然很不够看,说明了现有模型在复杂多模态推理任务中认知能力的严重不足。

在开源模型阵营中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的准确率普遍徘徊在8%至10%之间,甚至在某些任务维度上接近“随机作答”的水平——

所谓“把答题卡放地上踩一脚”的水平。

这种悬殊的表现不仅揭示了当前开源生态在多模态输出生成上的技术瓶颈,也反映出大模型从“看懂图”到“画出图以辅助思考”的能力缺失。

当前,大模型对于视觉推理尚处于早期探索阶段。

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

此外,通过比较不同模型的得分,可以看到:仅靠扩大模型参数规模、引入图像输入通道,或在文字层面堆叠长链条思维(Chain-of-Thought,CoT)并不能有效提升模型的视觉推理能力。

当下模型的重大短板:难以借助图像进行推理

RBench-V的研究揭示了一个关键问题:当前的大模型在处理需要空间直觉和图像操作的几何类问题时,往往选择“走捷径”。

与人类专家倾向于通过直观的可视化方法进行思考不同,大多数模型更习惯于将图形问题抽象为坐标系下的代数表达,并采用文本推理路径完成解题。

这种“用文字绕过图形”的策略虽然在某些场景下能够给出正确答案,但实际上掩盖了其对图像信息的深层理解缺失,也暴露出它们“表面聪明,实则薄弱”的多模态推理能力。

RBench-V的实验结果显示,即便是采用长文本推理路径或具备“看图说话”能力的模型,在面对需要图像输出的复杂问题时,仍然束手无策。

多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

RBench-V团队指出,真正推动大模型迈向“类人智能”的突破口,在于构建能够在推理过程中主动生成图像、构图辅助思考的认知框架。

这其中,多模态思维链(Multi-modal Chain-of-Thought,M-CoT)机制、智能体推理(Agent-based Reasoning)范式等新兴方法,可能成为人工智能通往未来的重要路径。

论文、代码、数据均可在项目主页找到:
https://evalmodels.github.io/rbenchv/

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/17378.html

(0)
人脑网的头像人脑网
上一篇 2025年5月28日 下午3:31
下一篇 2025年5月28日 下午3:32

相关推荐

  • 深圳又出了个智能机器人:DeepSeek加持,全球首款全域全身VLA

    坐标深圳,又有新机器人诞生了—— 智平方新一代通用智能机器人AlphaBot 2(爱宝 2)。 总结来看,这个新机器人一大特点就是,够聪明。 学习能力强,不用专门训练就能做很多事,还能快速学会新任务。 举个例子。 以前的搭载VLA(Vision-Language-Action)大模型的机器人,如果要做个早餐,那就得先由人类把食材放到它能看到的范围里;即便做好…

    2025年4月21日
    2800
  • 微软1bit LLM新研究:原生4bit激活值量化

    微软又有“1 bit LLM”新成果了—— 发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。 同时减少内存带宽&提升计算效率 之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显着降低延迟、内存占用等推理成本。 然…

    2025年4月29日
    2900
  • 10个步骤,了解新手入门过程的设计原则

    新手入门是每个应用程序最重要的元素之一。很多时候,它的难易程度决定了用户是否会继续使用应用程序。在用户界面上,新手入门不仅仅是简单的5个介绍软件的页面或说明性的工具提示内容。下面我会使用最有趣的例子来描述新手入门过程的设计原则。

    2017年4月17日
    3101
  • 打破56年数学铁律!谷歌AlphaEvolve自我进化实现算法效率狂飙

    数学能力几乎和AlphaGo的围棋水平一样?! 这是研究员对AlphaEvolve的最新评价,就在不久之前,谷歌DeepMind联合陶哲轩等一众顶尖科学家打造了「通用科学人工智能」AlphaEvolve,直接打破了矩阵乘法领域56年以来的效率基准。 一位谷歌前员工更是将这一成就类比为传说中的“神之一手”: 具体而言,4×4矩阵乘法的49次标量乘法效…

    2025年5月18日
    600
  • 知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式

    5月24日,知乎在北京798园区举办了一场有趣好玩的行业交流活动——“AI变量研究所”,这是知乎第十一届新知青年大会的分论坛之一。 清华大学交叉信息研究院助理教授、星海图联合创始人许华哲,42章经创始人曲凯,行云集成电路创始人季宇(mackler),阿里巴巴算法专家曹宇,硅基流动创始人袁进辉等数十位大模型领域从业者,齐聚一堂,深度探讨人工智能发展的关键变量和…

    2025年5月26日
    900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信