低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了!

来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。

低Token高精度!字节复旦推出自适应推理框架CAR

推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。

但已有研究发现,长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力(可能产生冗长输出)

为此,研究人员提出了CAR这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中,CAR超越了单纯的短回答与长推理方法,在准确性与效率之间取得了最佳平衡。

先导实验设置

这项研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个具有代表性的公开数据集开展先导实验。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4个数据集构成VQA数据集,覆盖文档、图表、信息图等多种视觉文本形态;SROIE、CORD、FUNSD、POIE等4个数据集组成KIE数据集,主要用于票据、表格等结构化信息抽取任务。

以这些数据集为基础,研究对Qwen2.5-0.5B模型进行微调,并在域内(如DocVQA、ChartQA)和域外(如POIE、InfoVQA)数据集上开展性能评估。

评估过程中,要求模型分别生成简短答案和包含长文本推理过程的答案两种输出形式。

实验完成后,系统性统计各数据集的准确率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型对生成答案的置信度越高。

低Token高精度!字节复旦推出自适应推理框架CAR

实验分析结果显示,PPL与准确率之间存在显着的强负相关性

从数据集层面分析,准确率与PPL呈现明显的逆向关系(见图1),即数据集整体准确率越高,其平均PPL值越低;深入数据集内部观察,预测正确样本的平均PPL分数显着低于预测错误样本(见图2)。

基于上述发现,研究创新性提出一种基于PPL的动态推理决策机制

具体而言,当模型输出的PPL值超过设定阈值(研究以测试集PPL分布的75%分位数作为阈值)时,判定为低置信度场景,触发长文本推理模式,以减少误判风险;若PPL值低于阈值,则判定为高置信度场景,直接输出简短答案,提升推理效率。

实验结果表明,采用该动态决策机制后,模型在绝大多数数据集上的性能均实现显着提升。

以下为PPL取75%分位数为阈值下的性能对比:

低Token高精度!字节复旦推出自适应推理框架CAR

提出自适应推理框架CAR

基于上述探索性的发现,这项研究工作拟开发一个使用困惑度(PPL)的动态推理决策框架Certainty-based Adaptive Reasoning(CAR),其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。

如图3(a)所示,研究人员首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型(LLM)或多模态大语言模型(MLLM)。

随后,借助训练集的困惑度(PPL),估计正确和错误简短答案的PPL分布,这些分布用于决策制定。

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。否则,它会执行长文本推理。推理过程如图3(b)所示。

低Token高精度!字节复旦推出自适应推理框架CAR

模型训练

研究人员将同时包含简短答案和长文本推理解答标注的训练示例进行混合,构建新的数据集。随后采用标准指令微调流程,模型接收由输入文本和输出文本组成的序列,优化目标为交叉熵损失:

低Token高精度!字节复旦推出自适应推理框架CAR

模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL。

Token序列的困惑度定义为:

低Token高精度!字节复旦推出自适应推理框架CAR

高斯分布建模

设二元变量C表示短答案是否正确(C=1为正确,C=0为错误),假设正确与错误答案的PPL分布均服从高斯分布:

低Token高精度!字节复旦推出自适应推理框架CAR

概率密度函数分别为:

低Token高精度!字节复旦推出自适应推理框架CAR

最后,通过训练数据估计其中参数(假设n1和n0分别为训练集中正确与错误回答的数量):

低Token高精度!字节复旦推出自适应推理框架CAR

推理过程

对新输入x,推理步骤如下:

1、短回答推理:模型生成短回答,并计算相应的PPL为PPLnew;

2、概率计算:根据贝叶斯定理,将PPLnew代入概率密度函数,计算后验概率;

低Token高精度!字节复旦推出自适应推理框架CAR

其中,先验概率分别为:

低Token高精度!字节复旦推出自适应推理框架CAR

3、决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。

实验结果

下表展示了多模态数据集上的性能表现。

首先,CARQwen2VL相比CARShort和CARLong的优越性能,证明了使用困惑度(PPL)作为推理路径选择指标的有效性。

此外,所提出的方法保持了还使用了更少的输出Token数量(平均86.9个token),仅为Qwen2-VLLong所使用Token数量的15%。

低Token高精度!字节复旦推出自适应推理框架CAR

下表展示了基于文本的推理任务性能对比。

CAR方法表现出稳健的性能。具体地,使用Qwen2.5-7B模型时平均准确率达81.1%(上图);使用Llama3.1-8B时达74.9%,均优于短答案基线模型以及长文本推理模型(下图)。

此外,CAR的性能均优于TALE和COD等先进的Token缩减方法。

低Token高精度!字节复旦推出自适应推理框架CAR

低Token高精度!字节复旦推出自适应推理框架CAR

小结一下,这项研究提出基于置信度的自适应推理框架(CAR),该框架可根据模型置信度动态切换短回答与长文本推理模式。

通过困惑度(PPL)量化模型对答案的置信度,CAR在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。

按照研究团队的说法,CAR打破了“长文本推理必然性能更好”的固有认知,为大模型推理提供了更灵活高效的解决方案,推动大模型推理向智能化、轻量化方向发展。

论文地址:https://arxiv.org/abs/2505.15154

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/16984.html

(0)
人脑网的头像人脑网
上一篇 2025年5月27日 下午3:19
下一篇 2025年5月27日 下午3:20

相关推荐

  • 陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明

    快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了?! 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。 对于这一操作,网友们惊呆:这具有足够的历史意义。 在没有明显引导、宣传之下,他的订阅数一天时间已经有900+,观看数超两千,目前仍然在高速增长中。 大家赶在爆火之前留言: 具体来看看是如何…

    2025年5月12日
    1200
  • 多模态大模型不会画辅助线:o3仅25.8%,远低于人类82.3%

    多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。 而RBench-V系统性评估了当前主流大模型基于“画图”的视觉推理能力: 比如在图中画出辅助线、描点连线、绘制光线路…

    2025年5月28日
    800
  • 轻松健康集团高玉石:AI产品和用户走得够近才能挖到新需求中

    当AI垂直落地健康领域,企业如何做出特色产品? 在轻松健康集团技术副总裁高玉石的最新分享中,我们抓到了一个核心关键词:用户。 在他看来,虽然当前用户对AI的接受度越来越高了,但用户也变得越来越理性了。 这意味着,以前只要产品有趣好用,用户或许都愿意尝试一下。而现在,产品是否能在场景中有效满足用户需求、是否形成了有效的壁垒和技术优势、是否解决了用户的核心痛点,…

    2025年4月23日
    1700
  • 5款最好的安卓界面设计工具推荐

    5款优秀的安卓界面设计工具,简单实用,快Get起来吧!

    2017年4月21日
    3111
  • 最强32B开源中文推理大模型易主:1/20 DeepSeek-R1参数量SOTA

    千亿参数内最强推理大模型,刚刚易主了。 32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了 这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型 通用32B尺寸(Skywork-OR1-32B)完全超越同规模阿里QwQ-32B;代码生成媲美DeepSeek-R1…

    2025年4月14日
    3700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信