重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:

消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。

来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG(Group Policy Gradient)

GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法偏差,提高训练效率。革新强化学习训练流程,推动智能体性能突破。

在实验中,GPG在单模态和多模态两类任务中表现遥遥领先,其极简架构高性能表现,有望成为下一代基础模型训练的关键方法。

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

以下是更多GPG有关细节。

一、背景介绍

近年来,以OpenAI和DeepSeek R1为代表的LLMs模型表现亮眼,深究成功背后,是强化微调技术(RFT)联合现有强化学习方法(如PPO、GPPO)在激励模型构建严谨的推理链上发挥了关键作用。

但在面对高昂的训练成本与性能平衡,主流方法PPO也陷入巨大瓶颈,与此同时,其他研究团队也在尝试使用ReMax、GRPO等简化训练流程,并在性能上取得了很大的突破,但他们都依然存在一些问题。

研究团队认为,当前针对RL算法的优化都在围绕替代损失函数展开,但两个核心问题始终悬而未决:

1.能否绕过替代策略,直接优化原始目标函数?
2.如何最大限度简化学习策略的设计?

由此,团队提出了GPG,其核心创新包括:

  • 直接目标优化:摒弃传统替代损失函数设计,直接优化原始强化学习目标,突破算法效率瓶颈。
  • 极简训练架构:无需评论模型和参考模型支持,摆脱分布约束,为模型扩展性提供更大空间。
  • 精准梯度估计技术(AGE):首次揭示现有方法的奖励偏差问题,提出轻量化且高精度的梯度估计方案,显着提升策略稳定性。
  • 单模态多模态任务SOTA验证:在数学推理、视觉理解、跨模态推理等任务中,GPG性能全面超越现有方法,验证其通用性与鲁棒性。

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

二、组策略梯度GPG方法
1)方法对比

各种强化学习方法的比较,作者以最简单的形式解释:

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

下面是GPG方法和已有RL方法各个模块的对比:

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

2)GPG方法

GPG旨在解决在没有价值模型的情况下,策略梯度估计中的高方差问题。通过利用group-level的奖励,GPG稳定了训练过程并增强了强化学习训练的鲁棒性。

具体而言,GPG利用每个Group内的平均奖励来归一化奖励,从而有效降低方差。这个方法可以移除传统的价值模型,从而简化了训练过程并提高了计算效率。 GPG的名称反映了作者方法核心机制,即利用group-level的平均奖励来稳定和优化学习。

GPG的核心优化目标定义为:

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

作者提出的GPG方法通过组内优势函数计算梯度校正机制实现了高效稳定的策略优化。在优势函数设计上,采用组内奖励均值归一化方法

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

3)现有RL方法中的两个bias

优势函数中的bias

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

组内样本全对全错时,引入梯度估计的bias

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

针对组内全对/全错样本的梯度估计bias问题,GPG创新性地引入动态梯度校正因子。

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

实验表明该机制可使模型准确率从43.9%提升至47.8%,显着改善训练稳定性。

三、实验
1)在单模态数据集上的结果

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

2)在多模态数据集上的结果

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

四、结论

在本文中,作者介绍了GPG,它有效地解决了强化微调方法(如PPO和GRPO)中现有的关键挑战。

通过将基于组内的决策动态直接纳入标准的PG方法,GPG简化了训练过程,并显着减少了计算开销,而不削弱模型效果。这一突破为训练能够进行复杂推理的先进LLM提供了更高效的框架,从而为更具资源效率和可扩展性的人工智能系统做出了贡献。

此外,团队将本文代码全面开源,希望促进技术透明化发展,也鼓励更多人参与到该项工作中来。

论文链接:https://arxiv.org/pdf/2504.02546
代码链接:https://github.com/AMAP-ML/GPG

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/8882.html

(0)
人脑网的头像人脑网
上一篇 2025年4月27日 下午3:31
下一篇 2025年4月27日 下午3:34

相关推荐

  • Claude1.7万系统提示词全网刷屏!Karpathy锐评:LLM缺乏关键范式

    全网刷屏的Claude系统提示词,结果被卡帕西大神当场抓虫?! 事情是这样的。 一夜之间,近1.7万字系统提示词——包含24000个token,详细定义了模型行为、工具使用和引用格式…..全部细节直接在GitHub上被泄露了! 这事儿一出,网友蜂拥而至速速围观,甚至亲切地称呼这次意外泄漏事件是提示技术的金矿。 就在此时,大神卡帕西发现了华点:LLM学习缺少主…

    2025年5月14日
    700
  • 大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

    大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜 问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9&…

    2025年5月28日
    800
  • 2年就过气!ChatGPT催生的百万年薪岗位,大厂不愿意招了

    明敏 发自 凹非寺 大模型元年最热门的AI岗位,现在已经过气了—— 提示词工程师,不用写代码、不限专业、不要求学历,只需研究如何和AI聊天,就能在2023年拿到25-33万美元年薪。 但如今,它已经沦为企业最不愿意扩增的岗位之一。 微软一项涉及31000名员工的调查显示,提示词工程师已经成为公司未来12-18个月内倒数第二不想新增的岗位。 同时在招聘平台(I…

    2025年5月5日
    1700
  • 微软CEO和奥特曼失了和,OpenAI被“断粮”

    就很突然。 许久没有同框的奥特曼和微软CEO纳德拉,刚刚在推特上“大秀恩爱”,还透露正在讨论合作新进展。 这没由来的操作,难道是有新发布? 但仔细一扒,或许更可能是回应新八卦。 就在这两天,《华尔街日报》放出猛料: 奥特曼和纳德拉,这对昔日让两家公司合作共赢的big name,在诸多事情上分歧日渐加大,渐行渐远 奥特曼是谁?OpenAI的掌舵者;纳德拉是谁?…

    2025年5月2日
    1600
  • 她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽

    2023年,业界还在卷Scaling Law,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了另一条路径。 早在OpenAI o1发布前,张丽团队就开始探索大模型深度推理能力。 System2这个原属认知科学的词汇最早由她及团队引入大模型领域。 最近,她们通过蒙特卡洛搜索算法让7B模型实现了o1级别的数学推理能力。 rStar—Math的发布引发…

    2025年5月26日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信