大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

大模型做数独,总体正确率只有15%???

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。

这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜

问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9×9现代数独问题,旨在考验大模型创造性推理能力

榜单显示,大模型不仅总体正确率只有15%,在9×9的现代数独中,即使是高性能模型o3 Mini High,正确率也只有2.9%。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

Sudoku-Bench项目在2025NVIDIA GTC开发者大会上进行了展示。

NVIDIA首席执行官黄仁勋对此评价:

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

Sudoku-Bench全新基准测试

Sudoku-Bench是Sakana AI在今年3月发布的一项由不同难度级别的数独谜题组成的基准测试,用于衡量人工智能的多层次和创造性推理能力。

1、现有问题:大模型的 “记忆依赖症”

目前大多数推理基准测试存在一个缺陷:大模型往往通过记忆标准答案或固定模式来完成任务,而不是真正运用逻辑推理能力

当遇到与训练数据中 “类似” 的问题时,模型会直接套用记忆中的解决方案,而非通过逻辑推导得出答案。

对于全新规则或未见过的模式,模型往往无法有效应对,因为缺乏可直接匹配的记忆模板。

传统数独游戏对大模型来说可能已经 “太简单”,它们可能只是记住了套路,而不是学会如何创造性地解决新问题。

2、解决方案:Sudoku-Bench用 “变异数独” 考倒大模型

近年来,各种各样具有独特规则的衍生谜题出现。

这些“变异数独”谜题需要多步骤和创造性的推理技巧,但只有一个正确答案,特点是无法通过记忆解决,必须通过多步逻辑推理找到 “突破口”

这些特点使得“变异数独”成为测试AI推理能力的理想选择。

以下就是一个“变异数独”示例,你不仅需要遵循原始规则,而且沿着彩色线条排列的数字还需要遵循额外的规则。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

Sudoku-Bench基准包括传统和现代数独(变异数独)问题,难度分级,从当前模型可以解决的简单问题到甚至最先进的推理模型也无法处理的极其困难的问题。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

Sudoku-Bench还包含了由Nikoli(日本着名的数独公司,数独正是其名称的由来)提供的100道手工数独题

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

3、大模型的 “惨败”:基线实验结果

在今年3月该基准发布后,研究人员测试了多个AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在内的最先进大模型。

为了给模型一个公平的机会,团队为模型提供了部分完成的谜题,并评估它们完成谜题的能力。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

结果显示,一些模型在这种辅助下表现得相当不错,但关键结果在于最后两列。

即使是最先进的模型,平均连一个正确的数字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能够解决基准测试中所有谜题的模型。

最新的排行榜显示:

  • 无工具辅助时,所有模型在100个谜题中的总体正确率低于15%
  • 小网格(4×4)表现稍好(40%-73% 正确率),但9×9网格几乎全败,正确率接近0%,即使是高性能模型“o3 Mini High”的正确率也只有2.9%。
  • 模型常犯错误包括:错误解答、放弃解题、误判规则矛盾,尤其是面对需要 “突破口” 的谜题时,只会盲目猜测,无法像人类一样通过逻辑链缩小搜索范围。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

测试团队详细列出了模型在每个谜题上的表现,感兴趣的朋友可戳文末链接查看~

关于Sakana AI

Sakana AI由前谷歌研究人员Llion Jones(Transformer作者之一)和David Ha于2023 年7月在东京成立,主要对生成文本和图像的AI基本模型进行研究。

此前,该公司开源发布了AI科学家AI审稿人,前者一出场就独自完成了十篇完整的学术论文,包括但不限于扩散模型方向、Transformer与强化学习等,引起了不小的轰动。

后者能对AI写的论文进行评审,提供改进意见,主打“以我之矛攻我之盾”。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

该公司还发布了一种名为“连续思维机器 (CTM)”的新型AI模型,通过像人类一样“逐步”思考并学习世界的内部模型,超越了简单的模式识别,并获得了逐步解决迷宫等复杂问题的能力。

Sakana AI还与Cracking The Cryptic(YouTube 上最大的谜题评论频道之一)合作,Cracking The Cryptic每天都会演示一些世界上最好的数独谜题的逻辑解决方案。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

Sakana AI获得了这些视频的文字记录以及答题过程中采取的行动数据。这些数据可以作为训练AI推理模型的理想数据,并与Sudoku-Bench一起发布。

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

着名的数独出题人Marty Sears还为Sakana AI定制了一款名为“奇偶鱼”的数独游戏:沿着Sakana AI红色标志线相邻的任何数字都必须包含一个偶数和一个奇数。

感兴趣的朋友可以尝试一下(解答过程已附在文末)~

大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

技术报告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶鱼题目:https://sudokupad.app/wsj7iunsg6
解答过程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/17365.html

(0)
人脑网的头像人脑网
上一篇 2025年5月28日 下午3:30
下一篇 2025年5月28日 下午3:32

相关推荐

  • GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

    GPT-4o会画吉卜力、会「自拍」,但是能拼好乐高吗? 你有没有想过这样的问题: 近年来,随着多模态大语言模型的迅速发展,视觉理解、图文对齐、语言生成等能力不断突破,仿佛人类助手已触手可及。 但在需要多步骤空间感知与逻辑推理的复杂场景中。 例如机器人装配、自动驾驶决策、3D物体理解等,多模态大模型的真实“空间智商”究竟如何? 为此,上海人工智能实验室联合同济…

    2025年4月23日
    1400
  • 所有AI工具共享记忆!MCP协议无需云端,Cursor、Claude都能用

    聊完就忘?当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了! 比如,你可以通过OpenMemory MCP用Claude规划路线图,但用Cursor执行任务,两个工具之间可以共享上下文信息,让数据得到延续。…

    2025年5月14日
    700
  • 大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

    你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”: GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI …

    2025年5月6日
    1000
  • 装满智能体AI的手机,正在呼唤一个“Type-C时刻”

    当手机中装满智能体,下一代AI手机的雏形正在显现。 天玑开发者大会上,手机芯片巨头联发科提出了全新的AGENTIC AI UX雏形。 在联发科的畅想中,AI助手不再是一个单纯的执行者,而是变成了一个能够协作,甚至“懂得拒绝”的伙伴。 一同发布的,还有全新升级的旗舰5G智能体AI芯片天玑9400+,AI能力再次升级。 相比前半代的“端侧AI最强芯”天玑9400…

    2025年4月16日
    4300
  • Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证

    惊艳全球的Claude 4,但它到底是如何思考? 来自Anthropic两位研究员最新一期博客采访,透露了很多细节。 这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。 带着这些疑问,两位资深研究员 Sholto Douglas与…

    2025年5月24日
    600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信