谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

人脑网 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

人脑网援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/8557.html

(0)
人脑网的头像人脑网
上一篇 2025年4月26日 下午3:26
下一篇 2025年4月26日 下午3:27

相关推荐

  • 快速体育运动!《打击矢量》耕升一招致胜

    由ChamoGames开发的《打击矢量》,已于3月5日在STEAM上线抢先体验版。这是一款第一人称体育射击游戏,该作将精准射击、无限制的技能上限,以及极具竞技性的体育元素巧妙融合,吸引了众多玩家的喜爱。 游戏上线即支持NVIDIA DLSS 3技术,搭载耕升GeForceRTX 50 系列显卡玩家,将能享受到更优异的游玩体验。 多样化角色阵容 《打击矢量》为…

    2025年4月24日
    800
  • 东风日产N7开启预订:20万级中大型轿车,内置8295P芯片+高阶智驾

    人脑网 4 月 13 日消息,东风日产全新中大型轿车今日开启预订,999 元意向金可抵 3000 元购车款,同时还推出了至高 10000 元置换补贴,新车将于 4 月 27 日正式上市。 人脑网汇总新车主要信息如下: 该车长宽高分别为4930/1895/1487mm,轴距 2915mm,配备无边框车门、隐藏式门把手;车尾采用贯穿式尾灯设计,配合熏黑后包围。 …

    2025年4月13日
    1800
  • 随诗而行,自驾赢好礼!

    在这个诗词与山水交融的浪漫季节,相信很多人都有了自己的自驾出游计划。 邀请您使用ZOL最新上线的自驾路书功能,制定自驾路线,记录旅途中的美好记忆。 您还可以参加本次的【随诗而行】主题挑战赛,赢取精美又实用的礼品。 活动时间 4月22日-5月15日 路书要求 发布格式:标题包含【随诗而行】 路线设计:需途径与古诗词相关的地点,并在站点介绍中写明 奖项设置 诗意…

    2025年4月25日
    700
  • HMD 多款新品曝光:Pulse2/2+/Pro 手机、Qi2 移动电源等

    人脑网 4 月 18 日消息,消息源smashx_60公布了HMD Global近期即将推出的手机及一系列配件,涉及 HMD Pulse2 系列入门级机型、HMD Amped Power 10/20移动电源、HMD Pills Bud 耳机。 HMD Pulse2手机 系列手机均采用紫光展锐T610芯片,使用直角中框,强调“ 50MP摄像头”,其中Pulse…

    2025年4月18日
    1400
  • 华硕推出 ATS 巨齿鲨金牌全模组电源:外壳装饰“鲨鱼姬”形象

    人脑网 4 月 24 日消息,华硕早前已为 ATS 巨齿鲨产品线推出了二次元形象“鲨鱼姬”,不过这一 ICON 原本仅在包装盒上出现,未添加到硬件本体上;而新推出的三款 ATS 巨齿鲨金牌全模组电源则拥有“鲨鱼姬”装饰外壳。 该系列电源包含 650W、750W 和 850W 三个功率版本,具有 80 PLUS 金牌转换效率。不过这三款产品的宣传中并未提及 A…

    2025年4月24日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信