无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——

结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind工程师评价,这种测试时强化学习的方式将改变LLM的格局:

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为“生成、投票、强化”三个大步骤。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

第一步生成的目的,是让模型针对每个输入的prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在AIME 2024数据集上应用TTRL训练Qwen2.5-Math-7B模型时,每个prompt采样64次(N=64),温度系数设为1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的N个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

TTRL在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL采用GRPO算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估TTRL的效果,作者在AIME 2024、AMC和MATH-500三个数据集上对调整前后的三款模型进行了测试。

  • 在AIME 2024数据集上,对于Qwen2.5-Math-7B基础模型,TTRL将其准确率从16.7%提高到43.3%,提升幅度高达159.3%,超越了所有在大规模标注数据上训练的模型。
  • 在AMC数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的准确率分别获得了74.9%、63.1%和68.4%的大幅提高。
  • MATH-500数据集上的表现更为突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升,LLaMA模型的准确率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三个数据集上的性能提高了84.1%。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

进一步的泛化性实验表明,在一个数据集上应用TTRL后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

为了分析TTRL方法有效的原因,作者比较了TTRL训练前后模型的多数投票性能。

结果,应用TTRL后,模型的多数投票准确率(Maj@64)显着高于原始的Qwen模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从AIME 2024上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在90%以上。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

作者简介

这项研究的领导者是清华大学C3I课题组博士生张开颜和上海AI实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华NLP实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的Yuxin Zuo,周伯文和C3I课题组博士后丁宁是本文的通讯作者。

无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

论文地址:
https://arxiv.org/abs/2504.16084

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7982.html

(0)
人脑网的头像人脑网
上一篇 2025年4月24日 下午3:45
下一篇 2025年4月24日 下午3:46

相关推荐

  • GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化

    专为GitHub打造的免费百科全书来了—— DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开…

    2025年4月27日
    700
  • 中关村科金喻友平: 平台+应用+服务是企业大模型落地的最佳路径

    大模型技术加速向产业渗透,如何直击业务痛点、带来真实增效? 在第三届AIGC产业大会上,中关村科金总裁喻友平分享如上方法论。 即使看似简单的需求,也需要经历需求拆解、数据调优与流程重构的闭环。在这个过程中,企服厂商需要提供好服务。 为了完整体现喻友平的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是…

    2025年4月29日
    700
  • ICLR高分论文险遭拒,只因未引用「造假」研究???作者怒喷

    有在离谱。 高分论文因为没有引用先前的研究而被ICLR拒稿了?! 于是作者提起上诉,审稿主席们推翻之前的决定,最终论文被接收并选为Spotlight。 本以为这场闹剧就这么结束了。 没想到,诶,还牵出更离谱的事儿。 该论文的作者举报,所谓「先前的研究」本身有实验结果矛盾,甚至还涉嫌抄袭他们的成果,拿他们的论文当大模型语料用Claude生成论文等不当行为。但却…

    2025年4月14日
    1800
  • 从设计默认值开始,给用户和产品带来更好的用户体验

    默认值是你的数字产品的默认基准设定值,这些填充设置的默认值虽然常常不多,但是换个角度来看,它更像是是设计师为设计作出一些基本的“决定”,帮助用户更快的让产品运行起来,上手使用。默认值对于产品和用户而言很重要,今天的文章,我们将会探讨设计师要如何设置默认值的样式、交互和字段细节,确保给用户和产品都能带来更好的用户体验。

    2017年4月17日
    1503
  • 智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!

    端侧大模型圈子的《速度与激情》,就这么水灵灵地上演了。 坐标上海车展,在长安马自达新车发布之际,车上的智能座舱竟然成了大亮点之一。 因为速度着实有点太快——从零到量产,只花了10个月的时间! 要知道,这件事儿在汽车领域里面,一般都是要按“年”这个单位来计算。 此举可谓是一鸣惊人,一举刷新行业纪录,一步迈进了“月”的计量单位。 而且啊,搞出这件事的,还是车圈的…

    2025年4月25日
    600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信