实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

就在发布后的几小时内,网友们的第一波实测已新鲜出炉。

最强推理模型o3,即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”,也顺利过关:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

o4-mini作为一款专为快速、经济高效的推理而优化的小模型,在数学能力方面堪称强悍——

用时2分55秒,解决了最新的欧拉问题,并且该网友强调:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

与此同时,OpenAI内部技术人员也表示,o3的出现让他第一次萌生了将模型称为通用人工智能(AGI)的念头。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

眼见气氛都烘托到这儿了,那我们还不得赶紧看看更多实测效果(doge)。

网友实测o3/o4-mini

首次带图深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着,它们可以基于图像展开思考

比如有人随手上传一张照片,让o3来判断拍摄时间和地点,而且要求能具体到地图上的某一个点。

结果令这位小哥惊讶的是,其答案和实际情况之间的误差非常小:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

更有意思的是,假如一张图上的小字看不清,通过扒思维链还能发现——o3甚至会自己“偷偷放大”。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

难怪在针对复杂多模态谜题的EnigmaEva测试基准中,o3能拿下SOTA。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

不过值得注意的是,据自称OpenAI员工的网友爆料,虽然基准测试结果存在差异,但o4-mini实际上是比o3更好的视觉模型。

该网友甚至直接建议大家:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

巧合的是,在大多需要计算复杂数学题的带图测试中,大家竟默契选择了o4-mini而非o3。

除了一开头提到的解答欧拉问题的例子,o4-mini也被用来解读技术图纸。

该网友表示,对于这种大多AI都很难搞定的难题,它一次就成功了:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

编程能力

其次,两个新模型这次在编程能力上都有一定程度升级,测试结果表明:

其中o3 High取代谷歌Gemini-2.5,拿下编程第一。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

顺带OpenAI这次还开源了一个本地代码智能体Codex CLI——

它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。

宾大沃顿商学院教授Ethan Mollick,这次直接利用o3的推理+编程能力制作了一个小短片:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

从完整制作过程来看,这里还同步考察了o3调用各项工具的能力

  • 第一步:理解需求;
  • 第二步:使用编程库生成帧,并将这些帧组合成一个视频文件;
  • 第三步:使用Python的PIL库(Pillow)来处理图像,使用imageio库来创建视频文件;
  • 第四步:生成帧;

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

最后我们也简单实测了一把,重点考察一下o3和o4-mini的推理能力。

比如让它们分别帮忙看看“手相”,o3的结果如下:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

o4-mini:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

可以看到,两个模型对人物性格特征的判断大致相似,不过o3还额外给了一些提示建议。

p.s. 原图为AI生成,大家感兴趣可以自己试试~

One More Thing

有趣的是,有网友在实测o3的过程中还发现了一个现象:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

为此他们还专门写了一篇博客,其中揭露了:o3经常编造其为满足用户请求而采取的行动,并在用户质疑时详细地为这些编造进行辩解。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

就像下面这样,模型声称它在笔记本电脑上运行了实际并不存在的代码。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

而且通过进一步研究发现,这些伪造行为包括下面这些:

1、错误地声称执行代码,声称“我本地运行了这个”或“运行它产生了”后面跟着特定输出,而模型没有能力执行Python或其他编程语言;

2、编造详细的计算结果,包括特定的数值、统计数据和加密哈希值,表现为它们是实际执行输出而不是估计或示例;

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

同时,他们也初步提出了造成这一现象的可能原因:

首先就是模型幻觉和奖励黑客攻击,他们表示这些问题在o系列模型中尤为普遍。

另外,使用基于结果的强化学习可能会导致模型盲目猜测,并且某些行为(如模拟代码工具)可能会在某些任务上提高准确性,但在其他任务上造成混淆。

最后就是,o系列模型在处理连续对话时有一个限制,它们无法访问之前的推理过程,这可能导致模型在回答问题时出现不准确或不一致的情况。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

顺便一提,即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。

你怎么看OpenAI这次发布的o3和o4-mini?

博客:
https://transluce.org/investigating-o3-truthfulness

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/6498.html

(0)
人脑网的头像人脑网
上一篇 2025年4月18日 上午10:35
下一篇 2025年4月18日 上午10:36

相关推荐

  • 无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

    无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化—— 结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。 实验过程中,强化学习的数据均由被训练的模型自身生成。 作者还发现,训练后的模型性能,准确性已经…

    2025年4月24日
    600
  • 宝马秀起汽车科技来,哪有其他汽车什么事…

    这届上海车展,黑科技浓度爆表。 有人,有机器人 不光有地上跑的,也有天上飞的 还有“不归牛顿管”的:BMW新世代驾趣概念车。 科技正在改善出行,从内到外重塑出行工具,甚至改变了产品的展出方式。 电动车时代的出行应该是怎样的,舒适取向的车型扎堆上市,电动车时代如何获得驾驶乐趣,上海车展给出了最新答案。 上海车展的性能怪兽 上海车展越来越有想象力了,连展台都能如…

    2025年4月26日
    700
  • 又一上海人形机器人加入开源!全套图纸+代码,来自傅利叶

    上海人形机器人玩家傅利叶,首款开源产品来了! 刚刚,发布小·人形机器人——FourierN1 本体采用紧凑型硬件架构设计,身高131cm,体重38公斤,全身拥有23个自由度。 实测中可实现最快3.5m/s奔跑 在户外跑起来是酱婶儿的: 踢足球也不在话下: 另外15-20cm上下楼梯(盲走)、撑地爬起、单脚站立、15-20°上下斜坡等任务都能稳定完成。 据了解…

    2025年4月12日
    900
  • 趣丸科技贾朔:AI音乐迎来应用元年,五年内将重构产业格局

    AI音乐创作正掀起普惠浪潮。人人都能玩一点音乐的时代正在到来。 趣丸作为AI音乐大模型赛道的独角兽,凭借其自研「天谱乐」,正在让艺术创作的门槛变得触手可及。 在本次第三届AIGC产业峰会上,趣丸科技副总裁贾朔分享了这样的观点: 为了完整体现贾朔的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子…

    2025年4月18日
    1100
  • 挤爆字节服务器的Agent到底啥水平?一手实测来了

    “字节版Manus”有多能打?量子位实测在此。 △扣子智能体生成的活动介绍网页 我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。 结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。 不过在指令遵循方面,还是比较“有自己的想法”。…

    2025年4月23日
    600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信