DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了

然鹅……奥特曼这边却发了一条“变卦”的消息:

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

至于大家翘首以盼的GPT-5,奥特曼表示:

至于原因,奥特曼也做出了解释。

大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

咱就是说啊,现在真的是DeepSeek这边一有点声响,OpenAI那边就得有点动作来紧跟一下了。

DeepSeek新论文

在这个小插曲之后呢,我们还是把目光聚焦在DeepSeek这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清华大学共同提出。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

这篇研究核心的亮点,就是提出了一个叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。

之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在RL中为大语言模型生成奖励信号。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显着提升性能。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

为了解决这个问题,DeepSeek和清华大学团队便提出了SPCT。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

整体来看,这项研究主要包含三大核心技术点。

首先就是生成式奖励模型(GRM)。

它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。

其中,C是生成的critique,fextract从中提取分数。

接下来,是关键的SPCT了。

主要是通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。

整体来看,SPCT是一个两阶段的过程,它们分别是:

  • 拒绝式微调(Rejective Fine-Tuning)
  • :冷启动阶段,通过采样和拒绝策略生成初始数据。
  • 基于规则的在线RL
  • :使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。

在此基础上,便是第三个技术点,即推理时扩展技术

先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。

再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。

基于上述的方法,团队也对结果做了一波测试。

在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显着优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4%)。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

总而言之,这篇研究证明了推理时扩展在通用RM中的有效性,性能超越训练时扩展。

One More Thing

奥特曼发布“变卦”消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:

  • 一本是Keach Hagey写的关于奥特曼本人的书
  • 一本是Ashlee Vance写的关于OpenAI的书

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

论文地址:https://arxiv.org/abs/2504.02495

[1]https://x.com/sama/status/1908167621624856998
[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[3]https://x.com/sama/status/1908163013192069460

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4168.html

(0)
人脑网的头像人脑网
上一篇 2025年4月6日 下午4:57
下一篇 2025年4月6日 下午4:58

相关推荐

  • 重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

    抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了: 消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。 来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG(Group Policy Gradient)。 GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法…

    2025年4月27日
    500
  • 当购物用上大模型!阿里妈妈首发世界知识大模型,破解推荐难题

    在推荐、广告场景,如何利用好大模型的能力?这是个很有挑战的命题。 背后主要有两个核心难点: 1)LLM虽然具备丰富的世界知识和推理能力,但缺乏电商领域的专业知识,在直接应用中往往表现欠佳。 2)LLM的交互方式多为文本,而直接将用户历史行为以文本格式描述会导致输入信息冗长、信息密度低等问题,对建模和推理都造成了困扰。 为了解决以上问题,阿里妈妈提出了一种世界…

    2025年4月30日
    300
  • 粉笔CTO:大模型打破教育「不可能三角」,因材施教真正成为可能

    2025,当大模型来到应用爆发之年,越来越多的垂直行业当中,开始涌现出AI落地的经典实践案例。 教育领域中,专注于职业教育培训的粉笔,就是其中之一。 就在第三届AIGC产业峰会现场,粉笔CTO陈建华坦言: 并且这种可能性,正在粉笔的亲身实践中逐渐成为可以量化观察的实例。 为了完整体现陈建华的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给…

    2025年4月18日
    1300
  • 刚刚,智谱一口气免费开源6款模型,200 tokens/秒成商用速度之最

    就在刚刚,智谱一口气上线并开源了三大类最新的GLM模型: 沉思模型GLM-Z1-Rumination 推理模型GLM-Z1-Air 基座模型GLM-4-Air-0414 若是以模型大小(9B和32B)来划分,更是可以细分为六款。 首先是两个9B大小的模型: GLM-4-9B-0414:主攻对话,序列长度介于32K到128K之间 GLM-Z1-9B-0414:…

    2025年4月15日
    2000
  • 20万美元奖金池!WBCD'25双臂机器人挑战赛全球启幕

    5月19-23日,ICRA 2025将在美国亚特兰大举行。 届时,第一届“探索机器人能力边界双臂机器人挑战赛(WBCD,What Bimanual Can Do)”决赛也将在ICRA 2025现场拉开帷幕。 作为ICRA官方合作的赛事,WBCD以“真实场景验证”为核心定位,从机器人公司的实际需求出发,设置三大前沿赛题,重点关注双臂机器人自主感知、预测规划与精…

    2025年4月26日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信