首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

仅需一个强化学习(RL)框架,就能实现视觉任务大统一

现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。

通过三层组件设计基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显着提升至+14.1%。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO闫俊杰也参与了这项研究。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。

那话不多说,咱们直接上细节。

推理感知“两手抓”

视觉任务可以分为推理感知两类,在当前,RL研究主要集中于数学QA和科学QA等视觉推理任务。

而目标检测和定位等视觉感知任务,因亟需独特的奖励设计和训练稳定性保障,还没有得到一个很好的解决方案……

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

针对上述问题,MiniMax针对性地提出了新框架V-Triune,作为首个面向VLM后训练的统一RL系统,通过三个互补组件核心巧妙实现二者的平衡。

样本级数据格式化

让每个样本自定义其奖励设置和验证器,支持动态路由和权重调整,以处理多种任务需求。

数据模式基于HuggingFace数据集实现,包含以下三个字段:

  1. reward_model:样本级定义奖励类型、权重。
  2. verifier:指定验证器及其参数。
  3. data_source:标识样本来源。

最终实现了多样化数据集的无缝集成,同时支持高度灵活的奖励控制。

验证器级奖励计算

采用异步客户端-服务器架构,将奖励计算与主训练循环解耦。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

客户端通过代理工作器异步发送请求,而服务器则根据”verifier”字段路由至专用验证器。

主要使用两类验证器:

  1. MathVerifyVerifierr:处理推理、OCR和计数任务。
  2. DetectionVerifier:处理检测和定位任务,应用动态IoU奖励。

从而实现在无需修改核心训练流程的情况下,灵活扩展新任务或更新奖励逻辑。

数据源级指标监控

在多任务多源训练中,按数据源记录以下指标:

  1. 奖励值:追踪数据集特定稳定性。
  2. IoU和mAP(感知任务):记录不同阈值下的IoU和mAP。
  3. 响应长度和反思率:跟踪响应长度分布、截断率,以及15个预定义反思词(如“re-check”)的出现比例。

该监控机制帮助诊断模型行为(如过度思考或肤浅响应),并确保学习的稳定性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

动态IoU奖励

此外针对监测和定位任务,团队还创新性地提出了动态IoU奖励,分阶段调整阈值,以缓解冷启动问题,同时引导模型逐步提升定位精度:

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

虽然V-Triune提供了可扩展的数据、任务和指标框架,但早期实验显示,联合训练可能会导致评估性能下降梯度范数突增等不稳定现象,于是团队又通过以下调整逐步解决:

  1. 冻结ViT参数,防止梯度爆炸。
  2. 过滤伪图像特殊词元,确保输入特征对齐,提升训练稳定性。
  3. 构建随机化CoT提示池,降低提示依赖性。
  4. 由于V-Triune基于Verl框架实现,主节点内存压力较大,需解耦测试阶段与主训练循环以管理内存。

Orsta模型

另外值得一提的是,基于开源的Qwen2.5-VL模型,团队还训练出7B和32B的Orsta模型

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

依据4类推理任务(数学、谜题、科学、图表分析)和4类感知任务(物体检测、目标定位、计数、OCR)的训练数据,进行规则和难度的两阶段过滤和训练优化。

最终实现在MEGA-Bench Core基准测试中,Orsta相比原始模型提升至+14.1%,尤其是在感知任务中,mAP指标显着提高,证明了该统一方法的有效性和可扩展性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

MiniMax布局多模态领域

MiniMax作为商汤背景出身的AI六小龙之一,近期在多模态领域可谓动作频频,模型横跨语言、音频、视频。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。

尤其是广受好评的MiniMax-01系列,包含基础语言模型和视觉多模态模型两种,性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时,还首次创新性实现了对新型Lightning Attention架构的大规模扩展。

最新发布的Speech-02,在AI语言生成上也是一骑绝尘,直接刷新全球权威语音基准测试榜单第一,一举打破OpenAI、ElevenLabs的行业垄断。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

据悉,此番统一视觉任务的RL架构

MiniMax的更多开源,感兴趣的小伙伴可以持续蹲一蹲~

论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

参考链接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/17635.html

(0)
人脑网的头像人脑网
上一篇 2025年5月29日 下午3:24
下一篇 2025年5月29日 下午3:26

相关推荐

  • 一个「always」站在大模型技术C位的传奇男子

    这是最近网友不断对着Transformer八子之一的Noam Shazeer(为方便阅读,我们称他为沙哥)发出的灵魂疑问。 尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后,有网友发现,其中提到的3-token因果卷积相关内容,沙哥等又早在三年前就有相关研究。 是的,“”。 因为你只…

    2025年5月10日
    600
  • 奖励是假的,能让Qwen提升25%性能却是真的!

    即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显着提升? 甚至还和真实奖励相差无几。 自从RLVR被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。 这不,来自华盛顿大学的一群博士生来火上浇油了—— 使用Qwen模型(尤其是数学版本),对虚假奖励进行RLVR,仍然可以将MATH-500的绝对准确率显着提升约25%。…

    2025年5月30日
    900
  • 平板本地部署DeepSeek,全球首款!天禧个人超级智能体重大升级

    L3级个人智能体发布,最新AI PC、AI手机、平板已抢先搭载! 联想正式宣布天禧个人超级智能体又一次的重大升级,向全面L3迈进,同时发布了全行业首款专注于为个人智能设备提供AI服务的领域智能体“想帮帮”。 联想集团高级副总裁、中国消费业务群总经理张华表示:“从AI大语言模型的推出,到今天AI智能体的蓬勃发展,碳基+硅基相融合的场景,开始走出电影画面,向现实…

    2025年5月9日
    1300
  • 开源全能图像模型媲美GPT-4o!解决扩散模型误差累计问题

    OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统…

    2025年5月12日
    1100
  • 大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

    你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”: GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI …

    2025年5月6日
    1100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信