DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了

然鹅……奥特曼这边却发了一条“变卦”的消息:

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

至于大家翘首以盼的GPT-5,奥特曼表示:

至于原因,奥特曼也做出了解释。

大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

咱就是说啊,现在真的是DeepSeek这边一有点声响,OpenAI那边就得有点动作来紧跟一下了。

DeepSeek新论文

在这个小插曲之后呢,我们还是把目光聚焦在DeepSeek这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清华大学共同提出。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

这篇研究核心的亮点,就是提出了一个叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。

之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在RL中为大语言模型生成奖励信号。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显着提升性能。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

为了解决这个问题,DeepSeek和清华大学团队便提出了SPCT。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

整体来看,这项研究主要包含三大核心技术点。

首先就是生成式奖励模型(GRM)。

它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。

其中,C是生成的critique,fextract从中提取分数。

接下来,是关键的SPCT了。

主要是通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。

整体来看,SPCT是一个两阶段的过程,它们分别是:

  • 拒绝式微调(Rejective Fine-Tuning)
  • :冷启动阶段,通过采样和拒绝策略生成初始数据。
  • 基于规则的在线RL
  • :使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。

在此基础上,便是第三个技术点,即推理时扩展技术

先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。

再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。

基于上述的方法,团队也对结果做了一波测试。

在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显着优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4%)。

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

总而言之,这篇研究证明了推理时扩展在通用RM中的有效性,性能超越训练时扩展。

One More Thing

奥特曼发布“变卦”消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:

  • 一本是Keach Hagey写的关于奥特曼本人的书
  • 一本是Ashlee Vance写的关于OpenAI的书

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

论文地址:https://arxiv.org/abs/2504.02495

[1]https://x.com/sama/status/1908167621624856998
[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[3]https://x.com/sama/status/1908163013192069460

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4168.html

(0)
人脑网的头像人脑网
上一篇 2025年4月6日 下午4:57
下一篇 2025年4月6日 下午4:58

相关推荐

  • GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化

    专为GitHub打造的免费百科全书来了—— DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。 最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。 整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开…

    2025年4月27日
    2200
  • AI十周找到不治之症潜在新疗法,核心流程完全自主驱动

    无特效疗法、无法根治的疾病,现在被「AI科学家」发现了潜在新疗法。 核心流程完全由AI驱动,人类研究员仅执行了实验室实验和最终论文撰写的那种。 最近非营利性组织Future House宣布了一个最新成果: 可以致盲的眼部疾病——干性年龄相关性黄斑变性(dAMD),或许有救了。 他们用一个多智能体系统,成功锁定Ripasudil这种已在日本获批用于临床治疗青光…

    2025年5月23日
    800
  • OpenAI神秘项目曝光:cderGPT,用AI加速药物评估

    OpenAI又一个神秘项目曝光了—— 名字叫做cderGPT,专门用来给药物评估这事提一提速度。 据Wired发布的消息来看,OpenAI的高层为了这个项目,已经与美国食品药品监督管理局(FDA)和马斯克的效率部门进行了多次讨论。 至于为什么要做这么个事,FDA局长Marty Makary在X上发表了他的看法: 并且他还表示,“我们刚刚完成了首个AI辅助的科…

    2025年5月8日
    1400
  • DeepSeek前员工领衔,复现R1强化学习框架训练Agent在行动中推理

    梦晨 发自 凹非寺 什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现? 新强化学习框架RAGEN,作者包括DeepSeek前员工Zihan Wang、斯坦福李飞飞团队等,可训练Agent在行动中深度思考。 论文一作Zihan Wang在DeepSeek期间参与了Deepseek-v2和Expert Specialized Fine-T…

    2025年4月25日
    2000
  • 四位图灵奖掌舵,2025智源大会揭示AI进化新路径

    2025年6月6-7日中国,北京这个初夏四位图灵奖得主与全球创新力量共赴智源大会即刻报名,探寻AI时代的无尽边域 2006年,多伦多大学Geoffrey Hinton教授等人提出逐层预训练方法,突破了深层神经网络训练的技术瓶颈,为深度学习的复兴奠定了基础。 强化学习作为智能体与环境交互的学习范式,其核心思想早于深度学习兴起。2013年DeepMind提出的D…

    2025年5月23日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信