字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

人脑网 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4715.html

(0)
人脑网的头像人脑网
上一篇 2025年4月12日 下午3:09
下一篇 2025年4月12日 下午3:09

相关推荐

  • 一加13T外观亮相 采用全新设计语言

    在外观设计上,一加13T采用了全新的设计语音,集极简、扁平、精致于一身。后置镜头模组摒弃上代圆形,采用圆角矩形,内含竖向排列双摄,搭配闪光灯与对焦模块,模组有金属光泽感,与背板同色处理。 一加13T提供云墨黑、晨雾灰和怦然粉配色。中框为金属直角边,背板是玻璃材质,且做到50:50黄金配重,重185g,带来了出色的握持手感。正面是6.32英寸1.5K中置挖孔直…

    2025年4月24日
    2100
  • 任天堂 Switch 2 底座实测确认不兼容初代电源适配器

    人脑网 6 月 6 日消息,科技媒体 9To5Toys 昨日(6 月 5 日)发布博文,实测确认任天堂 Switch 2的Dock底座不兼容初代Switch的电源适配器,系统会跳出错误。 人脑网注:任天堂在初代 Switch 游戏掌机上采用了 USB-C 端口,扩展了配件生态,也让充电变得更加便捷。不过有一点不足是,初代 Switch 随附的电源适配器是固定…

    2025年6月6日
    900
  • 西安电子科技大学等你!致态存储超速SSD+潮酷周边就绪

    ZOL潮好玩科技娱乐嘉年华潮酷亮相,本次嘉年华的第二站将于4月17日登陆西安电子科技大学,携手国内领先存储品牌致态ZHITAI带来品质存储的无限魅力。 本次嘉年华将于4月17日(周四)上午10点至下午6点,在南校区海棠餐厅门口开展,届时致态将带来致态固态硬盘、存储卡、移动固态硬盘等黑科技产品的现场体验,更有《黑神话:悟空》游戏试玩、潮玩周边免费派送等精彩互动…

    2025年4月16日
    3900
  • 【腾讯软件管家】怎样开启护眼模式

    腾讯软件管家的护眼模式能够有效保护用户视力。 1、 在桌面双击腾讯软件管家快捷图标,即可打开软件。 2、 在腾讯软件管家界面右上角点击选项。 3、 开启设置窗口后,点击显示设置选项。 4、 点击防蓝光模式右侧开关,打开护眼功能。

    2025年4月18日
    2200
  • 预售价 13 万-16 万元,一汽丰田 bZ5 将于 6 月 10 日上市

    人脑网 6 月 6 日消息,据一汽丰田官方,旗下全新车型 bZ5 将于 6 月 10 日上市发布。今年 5 月,新车曾作为一汽丰田第 1200 万辆汽车正式下线。该车已经启动预售,550 公里长续航版本不超过 13 万元,L2 城区辅助驾驶版本不超过 16 万元。 人脑网汇总新车主要信息如下: 一汽丰田 bZ5 基于 e-TNGA 平台打造,采用最新家族设计…

    2025年6月6日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信