AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现

人脑网 • 2025年5月29日下午3:24 • 智能 • 阅读 8

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。

UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：

具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。

与使用外部奖励信号GRPO相比，新方法在数学任务上不需要标准答案也能提升基础模型性能，在代码任务上表现得更好。

几乎同一时间，另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也验证了相似的结论。

作者表示两者的主要区别在于使用KL散度和最小化熵衡量自信程度。

Dropbox工程副总裁看后表示：Confidence is all you need。

“自信”驱动的强化学习

长期以来，训练大模型主要依赖两种方式：

要么需要大量人工标注（如ChatGPT的RLHF），要么需要可验证的标准答案（如DeepSeek的RLVR）。

前者成本高昂且可能引入偏见，后者则局限于数学、编程等有明确答案的领域。

那么当AI能力逐渐接近甚至超越人类时，能否让模型仅凭自身产生的内在信号，摆脱对外部监督的依赖？

针对这个问题，UC Berkeley团队提出新训练方法Intuitor，计算模型预测分布与均匀分布之间的KL散度作为“自信程度”。

相当于人类做题时，如果对答案有把握思路也会更清晰，当自信不足的时候往往需要重新思考。

通过优化这个内在信号，INTUITOR鼓励模型生成它自己”更有把握”的回答，也能促使模型生成更结构化的推理过程。

在实验中，1.5B和3B的小模型也涌现出与DeepSeek-R1类似的长思维链推理行为。

论文还指出，内在奖励信号还获得一个额外的好处：从机制上降低了“奖励黑客”的风险。

传统外部奖励信号的强化学习容易被“钻空子”，如模型可能生成语法正确但逻辑错误的代码来匹配测试用例，或在数学题中直接背答案而非推理。

在INTUITOR中，团队发现如果使用离线学习，在训练约100步的时候模型也学会了作弊：在回答中附加一个已经解决的简单问题来提高自信度分数。

但使用在线学习就可以避免这个问题，评估标准随着模型能力一起进化，作弊策略变得无效。

实验结果：不仅会做题，还会举一反三

团队首先实证研究了INTUITOR框架对LLMs数学推理能力的提升。

实验选取Qwen2.5-1.5B/3B作为基础模型，使用自我确定度作为唯一的奖励信号，并将其分别置于INTUITOR和两个基线方法（GRPO、GRPO-PV）在MATH数据集的预训练中。

使用对话提示，每次处理128道题目并各生成7个候选解决方案，KL惩罚系数设置为0.005。

在数学推理、代码生成、指令遵循的基准测试中进行性能评估，结果如图所示：

实验表明，在通过INTUITOR进行微调后，Qwen2.5-1.5B从最初只会输出重复的无意义内容且对话任务得分均低于10%，转变为无效输出大幅减少、响应长度有效增加。

在结构化推理能力上，团队还发现INTUITOR早期学习速度更快，如Qwen2.5-3B在GSM8K基准测试上INTUITOR（0.811）始终优于GRPO（0.758）。

此外，INTUITOR在多任务泛化上也表现优秀，例如当Qwen2.5-3B在代码生成任务上，虽然相对滞后但持续增长，最终性能比GRPO高8%，相对提升65%。

同时团队还观察到，在进行长链推理时，INTUITOR模型在生成完整代码前，都会添加自然语言推理（如“为解决X问题，需先执行Y步骤”），据推测也许这就是INTUITOR能够在测试中始终表现出色的原因之一。

它的演进过程大概可以描述为三个阶段：

模型学会生成代码，实现准确率提升和无效响应减少。
进行代码前推理以促进自我理解。
逐步细化生成带详细推理的有效代码。

为了评估自我确定度作为奖励的鲁棒性，研究人员还将离线自我确定度（来自固定基础模型的奖励）与在线自我确定度（来自不断进化的策略模型的奖励）进行了比较。

另外为进一步评估自我确定度作为奖励信号的质量，研究人员还分析了模型在MATH500响应中生成的自我确定度分数分布。

值得注意的是，INTUITOR模型对正确答案的self-certainty显着更高，而GRPO虽提升了模型自评能力，但区分度明显低于INTUITOR。

由于受计算资源限制，实验只在相对较小的无监督语料库上进行训练，未来可在更大规模的基础模型和更多样化的真实世界数据集上进一步研究INTUITOR的优势。

团队介绍

本项研究来自UC Berkeley的Sergey Levine、宋晓东团队，作者一共有五位，分别是第一作者博士后研究员Xuandong Zhao、共同一作本科生Zhewei Kang、来自耶鲁大学的Aosong Feng，以及Sergey Levine和Dawn Song。

2019年，Xuandong Zhao从浙江大学毕业后，就进入了加州大学圣塔芭芭拉分校攻读计算机科学博士学位，期间还曾在阿里巴巴、Microsoft和Google等公司实习。

自2024年他进入UC Berkeley后，除本次的新成果外，至今一共还发表过十多篇论文，并先后被ICLR 2025、ICML 2025等接收。

另外在今年2月，Xuandong Zhao和Zhewei Kang还合作发表了一篇论文，描述了基于自我确定性的LLMs推理能力提升新策略Best-of-N，可以看作是本篇论文的一次先验尝试。

论文链接：https://arxiv.org/abs/2505.19590
代码链接：https://github.com/sunblaze-ucb/Intuitor

参考链接：
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/17616.html

赞 (0)

0 0

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯

上一篇 2025年5月29日下午3:24

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

下一篇 2025年5月29日下午3:25

智能

清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员，提出了一种名为“绝对零”（Absolute Zero）的训练方式。这种方法通过让大模型根据推理目标，自己生成并解决任务，便可以获得推理能力。测试中，用“绝对零”训练出的模型，表现已经超过了用专家标注样本训练的模…

人脑网
2025年5月13日
14000
智能

陶哲轩油管首秀：33分钟，AI速证「人类需要写满一页纸」的证明

快来围观，陶哲轩当视频博主了。第一个产出就很炸裂：人类需要写满一页纸的证明，结果借助AI 33分钟就搞定了？！整个过程看起来一气呵成，还是全程“盲证”不用过脑子那种。对于这一操作，网友们惊呆：这具有足够的历史意义。在没有明显引导、宣传之下，他的订阅数一天时间已经有900+，观看数超两千，目前仍然在高速增长中。大家赶在爆火之前留言：具体来看看是如何…

人脑网
2025年5月12日
12000
智能

开源AI开发生态大洗牌：低代码平台逆袭，传统LLM框架日渐式微

终于！当前的大模型开发生态，被一份报告、完整全景图谱讲清楚了。就在第十届527蚂蚁技术日上，蚂蚁通过Coding范式、数据、模型部署等角度，对现有开源生态进行了全面完整的大剖析，从数据的视角揭示了大模型开源生态的演进规律，如果你是大模型开发者或者潜在的开发者，几乎研究好这份报告可能就够了。但这还不够，在报告出炉之前的周末，蚂蚁还发布了2025大模型开源生…

人脑网
2025年5月29日
9000
智能

首份空间智能研究报告来了！一文全面获得空间智能要素、玩家图谱

AI的未来，绝不仅限于聊天机器人和数字世界。物理世界的AI推进，已经开始。而且定义正在被包括李飞飞在内的大牛明确—— 空间智能。空间智能是什么？包含哪些应用领域？如何系统性地看待空间智能？随着技术的不断进步，虚实融合边界持续消融，空间智能的阶段性成果、当前的认知和格局，正在愈发清晰。在大量桌面研究、调研访问、数据分析之后，为了更好把握空间智能现状和未来…

人脑网
2025年4月26日
15000
智能

OpenAI最新技术报告：GPT-4o变谄媚的原因万万没想到

GPT-4o更新后“变谄媚”？后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文，直接引来上百万网友围观。 CEO奥特曼也做足姿态，第一时间转发小作文并表示：概括而言，最新报告提到，大约一周前的bug原来出在了“强化学习”身上—— 一言以蔽之，OpenAI认为一些单独看可能对改进模型有益的举措，结合起来后却共同导致了模型变得“谄媚”。而在看到这篇报…

人脑网
2025年5月3日
10000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信