李飞飞空间智能独角兽开源底层技术!AI 3D世界所有设备流畅运行

李飞飞空间智能创业公司World Labs,开源一项核心技术!

Forge渲染器,可在桌面端、低功耗移动设备、XR等所有设备上实时、流畅地渲染AI生成的3D世界。

具体来说,Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅。

Forge底层为GPU优化设计,其地位相当于传统3D图形领域的基础组件“着色器”。

Forge只需极少的代码即可启动和运行。它支持多个splat对象、多个摄像头以及实时动画/编辑。

World Labs联创、NeRF作者Ben Mildenhall称这项技术“让开发者像处理三角形网格一样轻松处理AI生成的3D世界。”

李飞飞空间智能独角兽开源底层技术!AI 3D世界所有设备流畅运行

李飞飞表示,“它能做到的事情简直令人难以置信”。

李飞飞空间智能独角兽开源底层技术!AI 3D世界所有设备流畅运行

在所有设备上渲染3D AI世界

3D高斯溅射 (3D Gaussian Splatting) 已成为生成式人工智能和3D重建领域的主流方案。

这项技术通过将3D场景和对象表示为微小的高斯形状斑点(又称Spat)的集合,机器学习技术可用于创建可实时渲染的细致逼真的3D内容。

然而,3D高斯溅射(3DGS)是一项相对较新的技术,许多传统的基于三角形的3D网格渲染引擎尚无法使用,而网络上最流行的3D图形库three.js无法直接渲染3DGS。

虽然有一些库可以在网络上渲染3DGS,但它们各自都存在不同的限制,如此只能渲染一个 3DGS 对象、3DGS对象之间的遮挡不正确、无法动态修改对象、需要 WebGPU 或渲染速度慢/卡顿。

Forge被设计为一款可编程的3DGS引擎,能够以前所未有的方式控制3DGS的生成、动画以及在场景中的渲染。

李飞飞空间智能独角兽开源底层技术!AI 3D世界所有设备流畅运行

与现代3D图形引擎中的着色器图形系统类似,Forge允许将函数块(称为Dyno)组合成计算图形,可以程序化地生成、任意修改Spalt,或执行能想到的任何其他计算,并转换为GLSL语言在GPU上运行。

官网用一个菜单场景,很好地展示了Forge渲染器的实时交互能力。

李飞飞空间智能独角兽开源底层技术!AI 3D世界所有设备流畅运行

实时高斯泼溅渲染的最大挑战之一是对每个splat进行排序,这被称为画家算法(Painter’s algorithm),也是Forge系统设计的核心。

管理此过程的关键组件是ForgeRenderer,它遍历并编译Three.js场景中所有 splat 的完整列表。

每个ForgeRenderer都有一个默认的ForgeViewpoint ,它会从GPU读取所有splat视角列表,然后使用高效的bucket sort算法确定绘制顺序,并通过SplatWorker在后台工作线程中运行。

通过生成额外的ForgeViewpoint对象,支持创建多视角同时渲染。

Forge还利用这个机会在GPU上的每个splat上运行用户可编程的数据流水线。标准流水线提供高级功能,例如应用刚体变换、调整 RGB/不透明度和球谐函数,以及颜色编辑和扰动以及双四元数骨骼动画系统。

标准流水线还允许通过dyno着色器图形系统注入任意代码来修改每个splat。

Forge支持完全控制编写任何以编程方式计算splat属性(中心、比例、四元数、RGBA)的函数。这些属性可以是无状态的,也可以依赖于splat文件、纹理和其他全局参数的复杂组合进行实时程序生成,并且可以随时间变化以生成实时动画。

World Labs成立以来完成超过2.3亿美元融资,投资方包括a16z、英特尔、AMD等。

他们的目标是将多模态AI从二维像素平面提升到完整的三维世界,称将于2025年推出首款产品。

另外,World Labs曾透露还计划打造一些对艺术家、设计师、开发者、电影制作人和工程师等专业人士有用的工具,目标客户涵盖从视频游戏开发商到电影工作室等各个领域。

从这一点看来,Forge渲染器更像是开发者工具中的一部分,真正的产品还在后面。

Forge主页
https://forge.dev

参考链接:
[1]https://x.com/BenMildenhall/status/1929618052813054294

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/18693.html

(0)
人脑网的头像人脑网
上一篇 2025年6月3日 下午3:16
下一篇 2025年6月3日 下午3:17

相关推荐

  • 扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"重建交互式场景

    DP-Recon团队 投稿 你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等…

    2025年4月23日
    2700
  • GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

    GPT-4o会画吉卜力、会「自拍」,但是能拼好乐高吗? 你有没有想过这样的问题: 近年来,随着多模态大语言模型的迅速发展,视觉理解、图文对齐、语言生成等能力不断突破,仿佛人类助手已触手可及。 但在需要多步骤空间感知与逻辑推理的复杂场景中。 例如机器人装配、自动驾驶决策、3D物体理解等,多模态大模型的真实“空间智商”究竟如何? 为此,上海人工智能实验室联合同济…

    2025年4月23日
    1500
  • 平板本地部署DeepSeek,全球首款!天禧个人超级智能体重大升级

    L3级个人智能体发布,最新AI PC、AI手机、平板已抢先搭载! 联想正式宣布天禧个人超级智能体又一次的重大升级,向全面L3迈进,同时发布了全行业首款专注于为个人智能设备提供AI服务的领域智能体“想帮帮”。 联想集团高级副总裁、中国消费业务群总经理张华表示:“从AI大语言模型的推出,到今天AI智能体的蓬勃发展,碳基+硅基相融合的场景,开始走出电影画面,向现实…

    2025年5月9日
    1300
  • 超九成年轻人工作学习离不开AI,人均还有1.8个AI朋友丨Soul

    不是我说,年轻人群体到底怎么看AI、用AI啊??? 现在摆在眼前的有这样一份调研数据,给我们更直观的答案。参加调研的年轻人群们—— 一方面呈现出与新技术共生的状态。 超九成已习惯在工作学习时使用AI辅助创作;约两成年轻人已经通过AI赚到钱。 另一方面,他们中的大多数已经在使用AI获取情绪价值。 超七成愿意和AI虚拟人做朋友,约六成年轻人拥有虚拟伙伴,参与调研…

    2025年4月6日
    3100
  • Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定

    30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。 全程只需30个prompt+1次重启 而人类在过去4年花了至少200个小时,都没找到这个bug在哪。 一位资深C++程序员的分享,最近火了。 要知道,他曾在FAANG(指Meta、亚马逊、苹果、奈飞、谷歌硅谷五巨头)担任工程师,如今也是团队中“定海神针”一样的人物。 这…

    2025年5月28日
    800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信