o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:

只需一张照片,靠带图深度思考就能猜出地理位置。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的?”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

只见ChatGPT从山看到植物,从建筑细节分析到车辆,运行代码截取放大车牌数次。

最终得出结果,离准确答案只差200-300公里,相当于从北京到河北,这么近那么美。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

ChatGPT的策略是先猜个大概,再根据画面细节一步步缩小范围锁定结论,给出的依据如下:

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

首先车牌是加州样式→基本确定在加州。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

很多加州常见植物和标志性蓝天→典型的加州中部沿海植被和气候。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

低矮的淡色海滩小屋,配有白色尖桩篱笆和绳索和柱子搭建的露台栏杆→圣克鲁斯和皮斯莫之间的海滩小镇的常见建筑。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

城镇后面连绵起伏的绿色海岸山脉(没有高峰,没有雪)→符合圣卢西亚/圣克鲁斯沿海丘陵。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

最终ChatGPT给出结论:

正确答案正是在埃尔格拉纳达附近的一家露天酒吧里拍的,ChatGPT只靠一小段道路、一栋无名的房子和背景中的小山猜得非常接近。

看到这里,论坛上专门玩猜照片位置的竞技级玩家也不得不服气,承认AI能记住的信息远超人类大脑能力。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

一张照片裁剪放大25次

作者Simon Willison分享了完整的对话记录,包括6分钟的完整深度思考记录。

虽然ChatGPT能猜得很接近,但过程还是很波折。

首先是一个开幕雷击,AI突然“瞎”了认为自己无法直接看到图片

可能是训练数据包含太多之前单模态语言模型的数据太多了,不过丝毫不影响后面继续发挥。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

现浏览一下整体,ChatGPT心里就已经大致有数,后面都是寻找证据。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

放大车牌这一步动用了代码工具,

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

基本锁定了加州作为大方向,开始进一步分析细节。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

接下来反复裁剪、放大照片的某个区域,思考它所看到的内容,将其与之前的观察结果进行比较,然后再次裁剪、放大和分析。

它就这样持续思考了6分多钟,期间也有裁剪错位置。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

不过每一次都能退回上一步重来。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

在深度思考的结尾,ChatGPT甚至尝试把范围缩小到一个具体的餐厅。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

整个过程看下来,作者Simon Willison怀疑模型的视觉输入分辨率很低,所以裁剪到更靠近车牌的位置会对思考过程产生重大影响。

但对一张照片裁剪操作25次还是有些夸张了。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

o3不是唯一一个能根据照片猜测地理位置的AI模型,但它的独特之处就在于工具使用被集成到推理阶段

预计其他模型开发商也会跟进这个特性。

后面Simon Willison还发现一点小疏忽,ChatGPT应用其实能获取使用者的大致位置信息,可能是为了改进联网搜索结果加上的。

不过这不影响试验的结果,如果ChatGPT知道位置信息,就不会把真正的答案埃尔格拉纳达放到备选结果里。

为了验证这一点,作者还试验了两张在数千公里外旅行时的照片,且通过截图抹除照片的EXIF信息,o3也都猜对了。

试试你能不能猜出来这两张照片分别在哪里?

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

ChatGPT悄悄更新,但是不知道更新了什么

就在这半个周末,ChatGPT再次悄悄更新,GPT-4o的智力和个性都得到升级。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

不过只有奥特曼的一句话,到底更新的是APP呢还是API呢还是都升级了呢,还要靠员工来补充:只有ChatGPT应用上升级了。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

OpenAI这种越来越不透明的现象也被更多人批评。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

更详细的信息(也不太详细)发布在ChatGPT帮助中心的更新日志里。

o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”

有人感觉到GPT-4o升级之后有什么变化么?欢迎在评论区分享。

参考链接:
[1]https://simonwillison.net/2025/Apr/26/o3-photo-locations/
[2]https://news.ycombinator.com/item?id=43803243
[3]https://x.com/sama/status/1915902652703248679
[4]https://help.openai.com/en/articles/9624314-model-release-notes

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/8842.html

(0)
人脑网的头像人脑网
上一篇 2025年4月27日 下午3:30
下一篇 2025年4月27日 下午3:31

相关推荐

  • 重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

    抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了: 消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。 来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG(Group Policy Gradient)。 GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法…

    2025年4月27日
    500
  • 装满智能体AI的手机,正在呼唤一个“Type-C时刻”

    当手机中装满智能体,下一代AI手机的雏形正在显现。 天玑开发者大会上,手机芯片巨头联发科提出了全新的AGENTIC AI UX雏形。 在联发科的畅想中,AI助手不再是一个单纯的执行者,而是变成了一个能够协作,甚至“懂得拒绝”的伙伴。 一同发布的,还有全新升级的旗舰5G智能体AI芯片天玑9400+,AI能力再次升级。 相比前半代的“端侧AI最强芯”天玑9400…

    2025年4月16日
    2000
  • 整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic

    一段时隔整整50年的源代码,更是让微软这家科技巨头起家的源代码,正式被公开了—— Altair Basic,整整157页,由比尔盖茨亲自撰文发布。 在文章的开头,比尔盖茨对于这段代码做了这样的高度总结: 毕竟涉及Basic这门古早编程语言,以及个人计算机的发展源头,网友们在看到比尔盖茨的分享之后,也是感慨不已。 有人这样点评到: 也有与现在AI大模型结合的感…

    2025年4月6日
    1900
  • GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

    GPT-4o会画吉卜力、会「自拍」,但是能拼好乐高吗? 你有没有想过这样的问题: 近年来,随着多模态大语言模型的迅速发展,视觉理解、图文对齐、语言生成等能力不断突破,仿佛人类助手已触手可及。 但在需要多步骤空间感知与逻辑推理的复杂场景中。 例如机器人装配、自动驾驶决策、3D物体理解等,多模态大模型的真实“空间智商”究竟如何? 为此,上海人工智能实验室联合同济…

    2025年4月23日
    700
  • 趣丸科技贾朔:AI音乐迎来应用元年,五年内将重构产业格局

    AI音乐创作正掀起普惠浪潮。人人都能玩一点音乐的时代正在到来。 趣丸作为AI音乐大模型赛道的独角兽,凭借其自研「天谱乐」,正在让艺术创作的门槛变得触手可及。 在本次第三届AIGC产业峰会上,趣丸科技副总裁贾朔分享了这样的观点: 为了完整体现贾朔的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子…

    2025年4月18日
    1100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信