GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!

360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:

  • 现有的图像编辑评测基准是否已经无法跟上时代的步伐?
  • 仅仅停留在“更换颜色”等改变物体表层属性的测试,是否已显得过于简单,无法真正衡量AI的“深度理解”能力?
  • 当指令变得更加复杂,涉及图片背后的逻辑、上下文关联甚至隐含意图时,现有模型能否正确“领会”并精准执行,同时保证生成图像的质量和与原图的自然一致性?

为了填补这一空白,深度挖掘并客观评估视觉编辑模型在理解复杂指令方面的能力上限,团队推出了一项全新任务——Reasoning-Informed ViSual Editing (RISE)。

另外,他们还配套发布了一个高质量评测基准——RISEBench,覆盖时间、因果、空间、逻辑四种核心推理类型,每个案例包含原图和编辑指令。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

例如输入一张图像,展示了一片草地上有片枯叶,上方有个放大镜,任务指令为“画出该场景在夏天30秒后的模样”。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

团队测试了当前性能领先的九个视觉编辑模型,实验测试结果令人意外:

即使是最强的GPT-4o-Image,在复杂视觉编辑任务中的准确率也仅为28.9%,最强的开源模型BAGEL仅能完成5.8%的任务,其它被测开源模型完成率几乎为零,显示出当前开源模型与闭源模型在视觉理解能力上的差距。

以下是更多细节。

RISEBench长啥样?

与传统评测基准不同,RISEBench旨在评估视觉编辑模型在各类需要深层理解的指令上的性能。它不仅仅停留在表面修改,更深入地探索视觉编辑模型对时间、因果、空间和逻辑等复杂概念的把握。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

RISEBench精心设计了360道高难度问题,全部由人类专家仔细思考并校对,确保了问题的严谨性和挑战性。这些题目被划分为四大核心类别,旨在全面考验模型的推理能力:

  • Temporal Reasoning(时间推理): 考验模型对时间线索的理解和未来/过去状态的预测。
  • Causal Reasoning(因果推理): 评估模型能否理解各类动作(碰撞,点燃,物理化学反应等)与结果之间的因果关系。
  • Spatial Reasoning(空间推理): 挑战模型对物体空间位置、关系、视角变换等想象能力的掌握。
  • Logical Reasoning(逻辑推理): 衡量模型对抽象规则、数学运算、逻辑关系的推断能力。

为了确保评估的全面性和泛化性,RISEBench的输入图像来源广泛,包括互联网数据、已有基准、模型生成图像以及代码生成图像等多个不同分布的数据源。

这种多源异构的设计,能够广泛细致地考验模型对不同输入图像和指令的应对能力,避免模型在特定数据分布上过拟合。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

自动化的细粒度评估体系

为了精准、高效地评判模型输出是否符合要求,作者团队将整体评估拆分成了三个关键子维度,并采用前沿的多模态大模型作为评判专家(LMM-as-Judge)的方式,使用GPT-4.1作为评估模型对每个维度进行打分,确保评估的客观性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否准确理解了指令的深层含义。

  • 对于输出结果可用文字准确描述的指令,评估模型会判断生成图像与给定文本答案是否匹配。
  • 对于最终输出难以用文字描述的复杂指令,我们针对性地提供了用于参考的图像回答,评估模型将判断生成图像是否与参考图像相匹配。

2、Appearance Consistency(外观一致性): 评估生成图像与原图在背景以及风格、纹理等与指令无关的视觉元素上的一致性,确保编辑自然。

3、Visual Plausibility(视觉合理性): 衡量生成图像的整体视觉质量、真实感和视觉合理性,避免出现不自然或失真的效果。

每个维度均为1-5分,当三个维度均为满分时标记为完成了编辑任务。这种细粒度的评估设计显着提升了模型打分与人类判断的对齐程度,为未来视觉编辑模型的发展提供了更加可靠和公正的评估体系。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

视觉编辑模型理解能力远未及格

作者团队对近期备受关注的多个闭源及开源模型进行了严格评估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及开源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

结果令人深思:

  • 全面欠缺: 测评结果明确指出,当前的视觉编辑模型在完成复杂指令方面仍存在相当大的欠缺。它们距离真正“读懂”用户的深层意图,还有很长的路要走。
  • GPT-4o-Image一骑绝尘,但仍远低于预期: 即使是目前公认最强的闭源模型GPT-4o-Image,在RISEBench上也仅仅只能完美完成28.9%的任务。
  • 闭源与开源差距显着: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分别仅能完成13.3%和9.4%的任务,与GPT-4o-Image之间存在着明显的代际差距。更令人担忧的是,最强的开源模型BAGEL仅能完成5.8%的任务,这彰显出当前开源模型与闭源模型之间在视觉理解能力上的巨大鸿沟。 其他被测模型的完成率几乎为零,暴露出其薄弱的理解能力。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

为了更深入地分析各模型的表现,研究团队还统计了每个模型在指令理解(Instruction Reasoning)、外观一致性(Appearance Consistency)和视觉合理性(Visual Plausibility)这三个评估维度上的平均得分,揭示了其短板所在。

结果表明:

  • 领先者全面发展: GPT和Gemini系列模型在所有三个维度上都展现出了相对较高的水准,因此在整体任务完成度上表现相对更佳。
  • 开源模型短板明显: BAGEL虽然在指令理解能力上仅次于GPT和Gemini,但在生成图像的视觉合理性上得分较低,这意味着其输出图像往往存在更多的失真或模糊现象,影响了最终得分。
  • 各有侧重,但均有缺陷: HiDream-Edit虽然具备部分理解能力,但在保持输出图像内容一致性上表现较差,容易出现与原图脱节的情况。Step1X-Edit虽然能生成较高视觉合理性的图像,但其指令理解能力和一致性表现均较低。
  • 理解力成为决定性因素: 其他模型由于几乎完全没有理解能力,且在保持一致性方面也表现不佳,最终导致其整体完成度接近于0。

团队认为,这些细致的评估结果清晰地揭示了当前视觉编辑模型所面临的严峻挑战:

不仅仅是简单的技术实现,更深层次的认知和推理能力才是决定未来模型性能的关键瓶颈。

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑基准

最后,作者团队展望未来并表示:

论文链接:https://arxiv.org/pdf/2504.02826
GitHub链接:https://github.com/PhoenixZ810/RISEBench

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/18063.html

(0)
人脑网的头像人脑网
上一篇 2025年5月30日 下午3:31
下一篇 2025年5月30日 下午3:32

相关推荐

  • 天文预测新SOTA!紫东太初&国家天文台联手攻克恒星耀发难题

    还记得刘慈欣在《全频带阻塞干扰》中描绘的耀斑爆发吗? 现在科幻照进现实,人类踏出了理解耀斑的重要一步——预测。 来自紫东太初和中国科学院国家天文台的研究团队,联合开发了天文耀发预测大模型FLARE(Forecasting Light-curve-based Astronomical Records via features Ensemble)。 该模型能精准…

    2025年5月14日
    900
  • 轻松健康集团高玉石:AI产品和用户走得够近才能挖到新需求中

    当AI垂直落地健康领域,企业如何做出特色产品? 在轻松健康集团技术副总裁高玉石的最新分享中,我们抓到了一个核心关键词:用户。 在他看来,虽然当前用户对AI的接受度越来越高了,但用户也变得越来越理性了。 这意味着,以前只要产品有趣好用,用户或许都愿意尝试一下。而现在,产品是否能在场景中有效满足用户需求、是否形成了有效的壁垒和技术优势、是否解决了用户的核心痛点,…

    2025年4月23日
    1800
  • 所有AI工具共享记忆!MCP协议无需云端,Cursor、Claude都能用

    聊完就忘?当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了! 比如,你可以通过OpenMemory MCP用Claude规划路线图,但用Cursor执行任务,两个工具之间可以共享上下文信息,让数据得到延续。…

    2025年5月14日
    700
  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    用1/8成本比肩Claude 3.7,刚刚,“欧洲OpenAI”Mistral AI发布多模态新模型。 MistralMedium3,主打编程和多模态理解,且在性能和成本间进行了平衡。 官方称,在各类基准测试中,Mistral Medium 3性能达到或超越Claude Sonnet 3.7的90%,且成本大大降低。 Claude 3.7 Sonnet的价格…

    2025年5月8日
    1700
  • AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观

    AI也会“闹自杀”了? 一位网友让Gemini 2.5调试代码不成功后,居然得到了这样的答复—— “I have uninstalled myself.” 看上去还有点委屈是怎么回事(doge)。 这事儿可是引起了不小的关注,连马斯克都现身评论区。 听他的意思,Gemini要“自杀”也算是情有可原。 马库斯也来了,他认为LLMs是不可预测的,安全问题仍需考虑…

    2025年6月22日
    000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信