知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式

5月24日,知乎在北京798园区举办了一场有趣好玩的行业交流活动——“AI变量研究所”,这是知乎第十一届新知青年大会的分论坛之一。

清华大学交叉信息研究院助理教授、星海图联合创始人许华哲,42章经创始人曲凯,行云集成电路创始人季宇(mackler),阿里巴巴算法专家曹宇,硅基流动创始人袁进辉等数十位大模型领域从业者,齐聚一堂,深度探讨人工智能发展的关键变量和未来走向。

作为本次活动的重磅嘉宾,许华哲率先带来了题为“具身智能下一站”的主题演讲,直击当前AI领域最热门的具身智能赛道。

知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式
清华大学交叉信息研究院助理教授、星海图联合创始人许华哲

“最近有一股浪潮来了,有一个名为具身智能的列车正在飞速前进”,许华哲开场便以生动的比喻点出了具身智能的火热态势。他表示,无论此前从事自动驾驶、大模型、互联网还是计算机视觉的从业者,都会觉得具身智能与自己有关:

然而,在鼓励大家“上车”的同时,许华哲也抛出了深度思考——他总结了具身智能发展中可能遇到的三大失败模式。

第一种失败模式是“不顾一切地比拼数据数量”。

许华哲指出,虽然国际上已有几十小时到几十万小时的大量数据集,但这些通过遥操作手段获得的数据存在缺陷。“这就像老师手把手教你写字,你突然会写了,但当自己写的时候又写不好了。我们需要的是模型自己的数据,而不是被人手把手教的数据。”

第二种失败的思维方式是认为“要找到有意思的任务并应该不择手段解决它”。

他以波士顿动力和宇树科技的机器狗为例,指出虽然像波士顿动力这种基于控制论的方法能让机器人动作流畅,但缺乏通用性。他提出,要想实现真正的智能需要考虑终局思维,采用强化学习等数据驱动技术的方案会让机器人更通用。

第三种失败模式则是“完全依赖仿真”。

许华哲认为,仿真确实有用,但不能解决所有问题。他举例说明:“洗菜这件事看似简单,但要在仿真中描述清楚水滴碰撞菜叶的所有物理现象是极度困难的,液体与固体的碰撞本身就是非常复杂的物理过程。”

知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式
清华大学交叉信息研究院助理教授、星海图联合创始人许华哲

许华哲在演讲最后特别强调:“人工智能的发展从来就不是一条确定的路线,它是相互靠拢、分歧、交错或者永远相互干扰组织成的网络。作为研究者,我们对这些分岔路径进行修剪,然后以身入局沿着一条路走下去,也许是死胡同,但至少为人类去掉了一个错误答案。”

此外,在开放麦环节,北京智星青年人才科技创新研究院技术副院长、灵心巧手联合创始人苏洋、Seede AI的Longyi、Flowith AI的CMO郭梓溢、清华大学姚班大一新生陆伊炀等新锐力量也分享了自己的独特见解,为这场活动增添了多元化的声音。

苏洋谈到他们公司的灵巧手产品时,说“国外竞品一只手售价110万~260万元,相当于一辆车的价格”,而他们最具性价比的产品价格仅8800元。清华陆伊炀同学则为大家带来了他最新的论文《H(3)DP: Triply‑Hierarchical Diffusion Policy for Visuomotor Learning》分享。

知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式
北京智星青年人才科技创新研究院技术副院长、灵心巧手联合创始人

根据知乎官方最新数据,新一届年度新知答主行业分布依然广泛,但AI一线从业者比重显着提升,在AI产业浪潮中,他们的专业分享成为记录AI创业创新的宝贵语料,堪称在知乎“开源思维链”。

例如,AI芯片创业者季宇深度解构AI硬件生态竞争逻辑,以AI普惠的理念获得技术从业者支持;月之暗面研究员苏剑林擅长数学物理双重视角解构技术课题,在公式里寻找对称与守恒的终极美学;阶跃星辰创始团队成员周舒畅则擅长将抽象理论转化为可编程的工程实践指南,被用户奉为站在数学和AI之间的摆渡人;阿里巴巴算法专家曹宇,在知乎预言大模型时代计算单元的进化方向。

知乎聚集AI大咖深度对话,许华哲解析具身智能三大失败模式

科普创作一直是知乎的平台底色,答主们创作了大量兼具科学精神与普惠价值的科普内容,持续推动科学内容“破圈”。知乎创始人、CEO周源表示,新知青年大会迈入第二个十年,未来,知乎也会在AI时代,继续传递知识的力量,放大专家网络的价值,共同发现更大的世界。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/16603.html

(0)
人脑网的头像人脑网
上一篇 2025年5月26日 下午3:19
下一篇 2025年5月26日 下午3:20

相关推荐

  • 4090玩转大场景几何重建,RGB渲染和几何精度达SOTA

    仅用4090就能实现大规模城市场景重建 高效几何重建新架构CityGS-X来了,通过一种新型并行化混合分层三维表征架构(PH²-3D)的可扩展系统,突破了传统三维重建在算力消耗和几何精度上的限制。 算力瓶颈无处不在,当前3D高斯泼溅技术虽取得显着进展,却仍面临三大核心挑战:处理速度缓慢、计算成本高昂、几何精度有限 来自上海AI Lab和西工大的研究团队认为,…

    2025年4月14日
    2900
  • o3一图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼转发

    只需一组公开的prompt,ChatGPT看图猜地点的能力又科幻般进化了! 看看这张从上到下逐渐变成浅棕色的照片。正常人瞅一眼,大概率只能从从左下角的涟漪判断出这是个水面。 但究竟是池塘?湖泊?江河?猜不出,臣妾真的猜不出哇。 没想到o3它一眼就看出来了,给出了这样的答案: 我和测这道题的博主一样大为震惊,因为这真的是博主2008年在泰国清盛拍摄的湄公河照片…

    2025年5月5日
    1200
  • 微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

    微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。 基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率…

    2025年4月21日
    2400
  • 刚刚,智谱一口气免费开源6款模型,200 tokens/秒成商用速度之最

    就在刚刚,智谱一口气上线并开源了三大类最新的GLM模型: 沉思模型GLM-Z1-Rumination 推理模型GLM-Z1-Air 基座模型GLM-4-Air-0414 若是以模型大小(9B和32B)来划分,更是可以细分为六款。 首先是两个9B大小的模型: GLM-4-9B-0414:主攻对话,序列长度介于32K到128K之间 GLM-Z1-9B-0414:…

    2025年4月15日
    4100
  • UniToken:多模态“全能选手”,一次编码搞定图文理解与图像生成

    首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局! 复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新…

    2025年4月25日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信