阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

除测评分数外,论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤干扰信息,正确整合关键数据

任务要求:根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算,总资本成本是多少?”

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

首先出场的基础模型DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,根据不相关的时间和财务信息,错误计算了第一年的利息支付

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

接下来,经过额外SFT的版本仍然未能解决这个问题。

它在对不相关文档进行过度分析的循环中自我怀疑,最终尽了最大生成限制(10000 tokens),却没有给出最终答案。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

相比之下,虽然QwenLong-L1-14B最初也表现出类似的分心,但它很快进行了有效的自我反思。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

那么,QwenLong-L1是如何做到的?

渐进式上下文扩展

首先,现有推理模型在面对长文本(如几万字甚至更长)时遇到什么问题?

Qwen团队通过对比实验发现,长文本推理的强化学习训练存在两个“硬伤”:

一是训练效率低,传统强化学习(RL)方法在长文本中容易陷入局部最优,奖励收敛慢,限制了策略优化时的探索行为。

二是优化过程不稳定,长文本任务的输出长度更高、输入长度分布不均匀,导致策略更新时的方差被放大,训练过程中参数更新不稳定(如KL散度坐过山车)。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

为此团队提出QwenLong-L1训练框架,核心是通过渐进式上下文扩展让模型逐步适应长文本推理。训练过程分为两阶段:

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

预热监督微调(Warm-Up Supervised Fine-Tuning)

在开始强化学习之前,先用高质量的演示数据进行监督微调,让模型先具备基本的长文本理解能力、推理链生成能力和答案提取能力。

团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-答案三元组,确保模型有个稳定的起点。实验结果显示,这个”热身”阶段对后续的强化学习训练至关重要。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

课程引导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。

从短文本逐步过渡到长文本。例如,先训练模型处理2万token的文本,稳定后再增加到6万token,最后到128K。每个阶段只关注对应长度的文本。

此外还引入了难度感知的回溯采样机制。在进入下一阶段时,会保留前一阶段中最难的样本(平均准确率为零的那些),确保模型不会”忘记”如何处理困难案例。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

长文本问答的答案往往比较开放,单纯的规则匹配太死板,可能漏掉正确答案。

QwenLong-L1在强化学习训练中采用混合奖励函数,结合了基于规则的验证和LLM-as-a-Judge。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

规则验证也就是直接检查答案是否与标准答案完全一致(如数学题计算结果是否正确),再用另一个模型判断答案的语义是否正确(应对答案表述不同但意思一致的情况),两者结合避免单一规则过于严格或宽松

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基础模型提升了5.1分,达到70.7的平均分。这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

团队还针对Test-time Scaling性能做了评估。当生成16个候选答案时,QwenLong-L1-14B的表现超过了DeepSeek-R1和OpenAI-o1-preview。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

最后论文中还深入探讨了两个问题:

  1. 既然SFT相对简单便宜,为什么还要费劲搞强化学习(RL)?

实验结果很有启发性。长文本SFT确实能带来2.6分的提升,比短文本SFT的效果更好。但是,如果在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在短文本SFT基础上做RL,却能提升3.2分。

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

对此团队提出一个观点:SFT提供了一种经济的性能提升方式,而RL则是达到最优性能必不可少的

通过跟踪分析了四种关键推理行为发现3个结论:信息定位(grounding)、子目标设定(subgoal setting)、回溯(backtracking)和验证(verification)。

  • 所有模型都展现出明显的推理行为,尤其是信息定位行为出现频率最高,这证明了它在处理上下文依赖推理时的重要性;
  • 强化学习训练过程中,这些行为会逐渐增强,并与性能提升高度相关,表明强化学习能有效调整输出空间,优先保留有助于得出准确解答的推理模式
  • 虽然SFT模型也能学会这些行为,但这些表面上的行为模仿并没有带来实质性能提升,这揭示了SFT更关注表面模式匹配,而非实质推理能力的培养。

论文地址:
https://arxiv.org/pdf/2505.17667

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/16925.html

(0)
人脑网的头像人脑网
上一篇 2025年5月27日 下午3:18
下一篇 2025年5月27日 下午3:19

相关推荐

  • DeepSeek精度效率双提升,华为信工所提出思维链“提前退出”机制

    长思维链让大模型具备了推理能力,但如果过度思考,就有可能成为负担。 华为联合中科院信工所提出了一种新的模式,让大模型提前终止思考来避免这一问题。 利用这种方法,无需额外训练,就可以让大模型的精度和效率同时提升 这种方式名为DEER,也就是动态提前退出推理(Dynamic Early Exit in Reasoning)的简称。 其核心在于找到推理信息质量下降…

    2025年5月12日
    1000
  • GPT-4o“最谄媚”!斯坦福牛津新基准:所有大模型都在讨好人类

    不只GPT-4o,原来所有大模型都在讨好人类! 上个月,GPT-4o更新后化身马屁精引来一片差评,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.…

    2025年5月23日
    700
  • 不用等R2了!第三方给新版DeepSeek V3添加深度思考

    DeepSeek即将发布R2??坊间传闻越来越多了,且难辨真假。 1.2T万亿参数,5.2PB训练数据,高效利用华为芯片……只能说如果有一半是真的都很牛了。 HuggingFace创始人此时推荐“以不变应万变”,打开官方认证账号的更新提醒,就能第一时间获取通知。 抛开具体泄露数据是否准确,大家似乎有一个共识:如果真的有R2,它的基础模型会是新版DeepSee…

    2025年4月29日
    2100
  • AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

    当前顶尖AI模型是否真能“看懂”物理图像? 全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55% 新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。 内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题 它由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合…

    2025年5月29日
    600
  • 大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

    你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”: GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI …

    2025年5月6日
    1100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信