用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦!

华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。

PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

目前论文和代码模型均已开源,作者希望其工作能给社区提供一个强大的baseline来支持后续研究。

眼见为实:为何AI视觉感知需要一场革命

随着OpenAI o3的出现,大模型竞赛也正式进入以“视觉推理”为代表的下半场,从GPT-4V到如今的o3,两年时间,人工智能正在迅速改变人与世界互动的方式,而这场革命在很大程度上依赖于AI理解视觉信息的能力。

从自动驾驶汽车在复杂的街道上导航,到医疗AI从扫描图像中诊断疾病,甚至是整理照片库的应用程序,视觉感知都是基础。

多模态大语言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及开源的Qwen-VL和LLaVA,代表了巨大的进步。这些模型将语言模型(LLM)的语言理解能力与处理图像的能力相结合,使我们能够与AI“交谈”关于图片的内容。询问它们图片中有什么,它们通常能告诉你。

然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。

强化学习的崛起与Perception-R1的诞生

强化学习(Reinforcement Learning, RL)引发了语言模型的范式转变。像RLHF(来自人类反馈的强化学习)和基于规则的RL等技术,在DeepSeek-R1中被用来解锁 emergent reasoning 能力,推动LLM向更强的推理能力发展。

这引出了一个问题:强化学习能否为MLLM的视觉感知能力带来类似的革命?

早期的尝试显示出希望,但并非通用的成功。简单地将语言领域的RL技术应用于视觉任务并不总能产生预期的收益。这暗示视觉感知可能遵循与纯语言不同的规则。

Perception-R1 应运而生。由华科,北邮以及JHU等高校的研究人员联合开发的开创性框架,如论文中所描述的那样这种方法回归到基本原理,探索如何有效地将基于规则的强化学习定制到MLLM视觉感知的独特挑战中。这不仅仅是让MLLM看起来更好,而是通过学习最佳的“感知策略”(Perception Policy)来教导它们更智能地看。

Perception-R1框架:工作原理

Perception-R1 不是从头开始构建一个新的MLLM,而是一个后训练框架,旨在通过基于规则的强化学习显着增强现有 capable MLLM(如Qwen2-VLInstruct-2B)的视觉感知能力

什么是“感知策略”?

“感知策略”可以视为MLLM处理视觉任务的内部策略,具体包括以下步骤:

  1. 从图像中提取和理解相关的视觉细节。
  2. 基于这种视觉理解执行逻辑操作(例如,比较位置、识别实例、识别文本)
  3. 以正确的格式生成所需的输出(例如,边界框坐标、计数、转录文本)

Perception-R1 使用一种名为Group Relative Policy Optimization(GRPO)的强化学习技术来优化这一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(简版)

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

GRPO原理公式:

  1. Rollout(多次尝试):要求模型多次生成输出(例如,8次)。由于生成中的随机性(由温度参数控制),每次输出可能略有不同。
  2. 奖励建模:根据明确的评分标准(奖励函数)评估每次尝试。例如,对于边界框任务,使用Intersection over Union(IoU)衡量模型输出与正确答案的重叠程度。
  3. 相对比较:GRPO 通过比较多次尝试的奖励分数,计算平均值。优于平均水平的尝试获得正“优势”,低于平均水平的获得负“优势”。
  4. 策略更新:利用这些相对优势更新模型的策略,增加生成高奖励输出的概率,减少低奖励输出的概率。
  5. 重复优化:在大量示例上重复此过程,逐步优化感知策略。

具体框架如下:

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△Perception-R1 架构示意图

做好视觉任务的关键:奖励工程(Reward Modeling)

在强化学习中,奖励函数至关重要,它是指导学习过程的核心信号。视觉感知任务通常具有直接、可量化的 ground truth,Perception-R1 利用这一点设计了基于规则的奖励函数,总奖励由两部分组成:

  1. 格式奖励:检查输出是否符合预期结构。例如,边界框任务要求输出
  2. 为格式,正确则得+1分,错误则扣-1分。
  3. 答案奖励:衡量感知的正确性,使用任务特定的指标:
  • 视觉定位(RefCOCO):预测边界框与 ground truth 的 IoU。
  • 视觉计数(PixMo-Count):将任务重新定义为点检测后计数,奖励基于预测点与ground truth点的欧几里得距离。
  • 光学字符识别(OCR – PageOCR):预测文本与 ground truth 的编辑距离(Levenshtein distance)

多主体奖励匹配的挑战与解决方案

对于涉及多个实例的任务(如物体检测和计数),如何匹配预测结果与 ground truth 是一个难题。Perception-R1 采用二分图匹配解决:

  • 将预测结果和 ground truth 视为两组点。
  • 计算每对之间的潜在奖励(例如,IoU)
  • 使用匈牙利算法找到总奖励最大的最优匹配。

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

这确保了奖励计算基于最佳对应关系,为多物体感知任务提供了更准确的学习信号。最终总奖励为:

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

实验结果:Perception-R1的突破性表现

Perception-R1 的实际表现如何?研究人员在一套标准视觉感知基准上对其进行了评估,并将其与强大的基准 MLLM(如原始 Qwen2-VL-2B-Instruct)进行了比较,甚至与只为特定任务设计的专门 “专家 “模型进行了比较。

visual grounding任务(RefCOCO/+/g)

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△visual grounding评测

OCR任务(PageOCR)

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△PageOCR评测

视觉计数任务(Pixmo-Count)以及目标检测任务(COCO2017)

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△视觉计数和目标检测评测

通用图像理解(general image understanding)

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△image understanding and reasoning 评测

重要消融实验

Perception-R1也进行了全面的消融实验来探究现阶段rule-based RL对perception policy learning的有效性会受到哪些方面影响,研究人员详细评测了reward matching,是否使用显式的thinking以及SFT与RL优劣的问题都进行了深刻的探讨,接着Perception-R1也展示其良好的可扩展特性,为后续大规模scale up提供了实验验证。

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

△Perception-R1的可扩展性实验

结论:迈向更加智能的AI视觉感知

Perception-R1 表明,当强化学习被精心适配到视觉任务的独特特性时,它可以成为教导大模型更准确、更逻辑地“看”的强大工具。通过优化感知策略,该框架推动了MLLM在物体检测、计数和OCR等任务上的能力边界。

尽管真正的视觉“顿悟”仍需探索,Perception-R1奠定了关键基础。它挑战了视觉任务必须依赖语言推理的假设,并强调了任务复杂性对RL效果的重要性。

随着模型规模扩大和更具挑战性的基准出现,Perception-R1的原则可能在构建下一代智能感知AI系统中发挥关键作用。

论文链接:https://arxiv.org/pdf/2504.07954
代码链接:https://github.com/linkangheng/PR1博客链接:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/10799.html

(0)
人脑网的头像人脑网
上一篇 2025年5月3日 下午3:28
下一篇 2025年5月3日 下午3:30

相关推荐

  • 被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑

    谢赛宁十年前被NeurIPS(当时还叫NIPS)拒收的论文,刚在今年获得了AISTATS 2025年度时间检验奖。 这篇论文就是《Deeply-Supervised Nets》(DSN,深度监督网络),2014年9月挂上arXiv。 时间匆匆,十一年过去,属于是真·时间检验了。 它提出的中间层监督思想被谢赛宁后续作品REPA(Representation A…

    2025年5月6日
    1500
  • 5700问答对全面评估拷问AI空间感!新基准来了丨浙大&成电&港中文

    这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型(VLMs)也可能答错。 究其根本,还是当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正…

    2025年6月2日
    1100
  • 一搜秒回、多模态输出,百度AI搜索全面上线百度智能云千帆平台

    在信息爆炸的数字化浪潮中,企业如何突破数据迷雾,实现全网信息高效、精准、安全的获取?近日,百度智能云千帆应用开发平台AppBuilder正式推出“百度AI搜索”。作为百度搜索能力的企业级出口,该方案集成“百度搜索”与“智能搜索生成”两大核心能力,为企业提供从信息检索到智能生成的全链条服务,彻底解决传统爬虫技术的合规风险与效率瓶颈,推动企业检索进入智能时代。 …

    2025年6月14日
    500
  • 大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

    你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”: GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI …

    2025年5月6日
    1300
  • 无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

    无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化—— 结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。 实验过程中,强化学习的数据均由被训练的模型自身生成。 作者还发现,训练后的模型性能,准确性已经…

    2025年4月24日
    3800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信