全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

基于认知分层的三大知识范畴

  • 事实性知识(Factual Knowledge):如颜色、数量、空间与时间这些可直接感知的信息;
  • 概念性知识(Conceptual Knowledge):涉及物理、化学、生物等学科常识,需要对世界进一步的理解;
  • 程序性知识(Procedural Knowledge):多步操作与规则推理,考察模型的任务分解与推理能力。

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

  • 样本总量:1,267对图像–指令,全部由专家团队手工打磨、反复校对;
  • 数据来源:包含真实照片、开源基准、模型生成、3D渲染等多样分布,防止模型投机取巧。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

  1. 视觉一致性(Visual Consistency):非目标区域是否保持原貌;
  2. 视觉质量(Visual Quality):生成图像的自然度与无失真度;
  3. 指令跟随(Instruction Following):指令要点执行的完整性与准确性;
  4. 知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

  • 闭源旗舰GPT-Image-1遥遥领先,开源黑马BAGEL-Think通过引入推理过程提高了在知识合理性上的性能表现,但离闭源模型仍有一定的距离。
  • 即使对于最简单的事实性知识,许多模型在例如数量变化,大小改变上的表现依旧差强人意。
  • 所有模型在“程序性推理”、“自然科学”及“多步骤合成”任务上普遍失分,显示出深层推理能力的严重不足。

全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差

借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/
论文地址:https://arxiv.org/abs/2505.16707
代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/20415.html

(0)
人脑网的头像人脑网
上一篇 2025年6月13日 下午4:00
下一篇 2025年6月13日 下午4:00

相关推荐

  • 让ChatGPT连读“A”,直接崩溃到念广告词,网友:拿我们做测试?

    网友挺生气。 一位ChatGPT的付费用户在体验高级语音模式的过程中,遇到了让他惊掉下巴的事情—— 本来在正常聊着关于寿司的话题,ChatGPT画风那叫一个突变,直接安排上广告了…… 来感受一下完整过程: 视频地址:https://mp.weixin.qq.com/s/044YgV2GzZeViJzV_v9Idw 没错,ChatGPT就这么硬生生地转成英语,…

    2025年6月2日
    700
  • 生数科技廖谦:多模态技术定将催生全新内容平台,实现完全个性化

    多模态生成技术持续突破内容创作的边界。 生数作为多模态领域的明星玩家,所提供的技术正推动AI视频创作进入系统性可用新阶段。 在本次第三届AIGC产业峰会上,生数科技产品副总裁、Vidu产品负责人廖谦分享了这样的观点: 为了完整体现廖谦的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子位主办的A…

    2025年4月18日
    3100
  • Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,秒变React大神

    Qwen上新“AI前端工程师”Web Dev,一句话开发网页应用。 三大件HTML,CSS,JavaScript一个工具全包了,定睛一看用的还是React框架。 几秒钟生成个人网站,布局美观还带特效,接下来改改内容上传GitHub Pages就完事了。 又或者哪家Agent能自动部署网页了,有知道的欢迎在评论区交流。 官方在Twitter的宣传还演示了一句话…

    2025年5月10日
    1200
  • 所有AI工具共享记忆!MCP协议无需云端,Cursor、Claude都能用

    聊完就忘?当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了! 比如,你可以通过OpenMemory MCP用Claude规划路线图,但用Cursor执行任务,两个工具之间可以共享上下文信息,让数据得到延续。…

    2025年5月14日
    700
  • 陶哲轩DeepMind梦幻联动,最强通用科学Agent来了!

    Nature:「令人惊叹」的通用科学人工智能来了! 谷歌DeepMind再次甩出一颗重磅炸弹:与陶哲轩等一众顶尖科学家一起共同打造AlphaEvolve。 它可以设计出更快的矩阵乘法算法,可以改进芯片设计、提高数据中心、AI训练的效率,已经在谷歌内部用上了。 它将Gemini架构中大型矩阵乘法运算加速了23%,从而将Gemini的训练时间缩短了1%,谷歌程序…

    2025年5月15日
    1000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信