字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

人脑网 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4715.html

(0)
人脑网的头像人脑网
上一篇 2025年4月12日 下午3:09
下一篇 2025年4月12日 下午3:09

相关推荐

  • 索尼 Xperia 1 VII 手机通过台湾地区 NCC 认证,外观及配色曝光

    人脑网 4 月 24 日消息,去年 5 月索尼发布了 Xperia 1 VI 手机,如今其继任者 Xperia 1 VII 的相关信息已经浮出水面。该机型已在台湾地区通过了 NCC 的认证,设备的实拍图也随之曝光。 从曝光的图片来看,Xperia 1 VII 至少会提供三种颜色版本:黑色、“海军绿”以及紫色。这是自 Xperia 1 IV 以来,紫色版本首次…

    2025年4月24日
    700
  • 荣耀 X60 GT 手机亮相:号称“千元神机”,4 月 22 日首销

    人脑网 4 月 16 日消息,荣耀 X60 GT 手机现上架荣耀商城开启 1 元预约,新机号称“千元神机”,将于 4 月 22 日 10:08 首销。 从官图可以看到,荣耀X60 GT 手机正面配备一块直屏,边框为立边设计,后置矩形相机模组(从图片来看,预计后置双摄)。另外,新机的后盖有望采用格纹设计。 目前荣耀官方暂未公布新机具体配置,人脑网将持续关注并在…

    2025年4月16日
    1400
  • 50系平台性价比装机首选 微星MAG B850M MORTAR WIFI迫击炮主板评测

    我们今天评测微星全新推出的MAG B850M MORTAR WIFI迫击炮主板,迫击炮系列可以说是微星作为畅销的主板系列,定位和用料都偏向中端,但价格却靠向入门主板,所以性价比一项很高,而且稳定性出众,是大部分用户作为装机首选主板,因此这款产品搭配最近上市的RTX 5060Ti显卡就很合适,下面我们就来开始详细的评测看看这款迫击炮具体的表现。 1 微星MAG…

    2025年4月23日
    600
  • 激耀大阪世博会!光峰科技全场景激光投影解决方案亮相三大国家馆

    从航天探索到深海探测,从文字演变到生态保护,光峰科技以光为媒,打破了物理界限,让世界文化在光影中鲜活重现。 4月13日,举世瞩目的国际盛会——以“构建未来社会,想象明日生活”为主题的日本大阪世博会正式开幕。在这场汇聚全球智慧的舞台上,一场场关于人文思考与创新技术的对话,正在大阪湾畔悄然上演。 (大阪世博会吉祥物——MYAKU-MYAKU(脉脉)) 全球激光显…

    2025年4月14日
    1400
  • DIY小技巧:选谁?9800X3D实测游戏帧数对比7800X3D

    还有不到两个月就是618促销,不少游戏玩家已经准备攒机了。目前装机热门处理器当属AMD X3D系列,最新的锐龙9000X3D毫无疑问成为了游戏玩家首选,不过美中不足是AMD出货量赶不上玩家的热情,因此锐龙9000X3D一直处于供不应求加价状态。所以很多玩家打算退而求其次想要选择锐龙7000X3D处理器,那么今天我们就来通过游戏实测,看一看热门型号锐龙7 78…

    2025年4月28日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信