无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——

结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind工程师评价,这种测试时强化学习的方式将改变LLM的格局:

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为“生成、投票、强化”三个大步骤。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

第一步生成的目的,是让模型针对每个输入的prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在AIME 2024数据集上应用TTRL训练Qwen2.5-Math-7B模型时,每个prompt采样64次(N=64),温度系数设为1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的N个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

TTRL在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL采用GRPO算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估TTRL的效果,作者在AIME 2024、AMC和MATH-500三个数据集上对调整前后的三款模型进行了测试。

  • 在AIME 2024数据集上,对于Qwen2.5-Math-7B基础模型,TTRL将其准确率从16.7%提高到43.3%,提升幅度高达159.3%,超越了所有在大规模标注数据上训练的模型。
  • 在AMC数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的准确率分别获得了74.9%、63.1%和68.4%的大幅提高。
  • MATH-500数据集上的表现更为突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升,LLaMA模型的准确率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三个数据集上的性能提高了84.1%。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

进一步的泛化性实验表明,在一个数据集上应用TTRL后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

为了分析TTRL方法有效的原因,作者比较了TTRL训练前后模型的多数投票性能。

结果,应用TTRL后,模型的多数投票准确率(Maj@64)显着高于原始的Qwen模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从AIME 2024上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在90%以上。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

作者简介

这项研究的领导者是清华大学C3I课题组博士生张开颜和上海AI实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华NLP实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的Yuxin Zuo,周伯文和C3I课题组博士后丁宁是本文的通讯作者。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

论文地址:
https://arxiv.org/abs/2504.16084

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7982.html

(0)
人脑网的头像人脑网
上一篇 2025年4月24日 下午3:45
下一篇 2025年4月24日 下午3:46

相关推荐

  • 挤爆字节服务器的Agent到底啥水平?一手实测来了

    “字节版Manus”有多能打?量子位实测在此。 △扣子智能体生成的活动介绍网页 我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。 结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。 不过在指令遵循方面,还是比较“有自己的想法”。…

    2025年4月23日
    1400
  • 拿下38项第一!字节发布Seed1.5-VL多模态推理模型

    在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。 整体而言,虽然是“以小博大”,但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。 比如猜下图中有几只猫,人眼很容易…

    2025年5月14日
    900
  • OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

    GPT-4o更新后“变谄媚”?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO奥特曼也做足姿态,第一时间转发小作文并表示: 概括而言,最新报告提到,大约一周前的bug原来出在了“强化学习”身上—— 一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。 而在看到这篇报…

    2025年5月3日
    1300
  • 清华张亚勤:10年后,机器人将可能比人都多

    “10年后,机器人将可能比人都多,会陆续进入工厂、社会,最终形态是进入家庭。未来每个人、每个家庭都有机器人。” 这样的预言,来自清华大学智能产业研究院(AIR)院长张亚勤。 在其新书《智能涌现》中,基于数十年对AI的思考与实践,从他领导下AIR研究院正在推进的三大方向——多模态大模型、自动驾驶和生物智能出发,张亚勤还给出了更多对AI技术演进方向的长期预判,包…

    2025年4月21日
    2700
  • GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化

    专为GitHub打造的免费百科全书来了—— DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开…

    2025年4月27日
    2100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信