每只手21个自由度,支持16主动自由度,具备高精度操作能力。
在夹持、旋转、精准插拔等精细操作上,能力远超市面常见的6自由度抓取器。
这就是具身智能创业公司灵初智能最新推出的自研灵巧手。
要知道,人类的一只手是27个自由度,而特斯拉最新一代Optimus Gen-3灵巧手也只有22个自由度。
21个自由度,意味着机械结构复杂,硬件制造上难度极高,还需要保证稳定性和可量产性,造价下探很有难度,“市面上很多团队,光灵巧手就要几十万一只。”
而灵初智能创始人兼CEO王启斌告诉量子位,灵初的目标,是将一台机器人整机的价格——
打到17000美元(约122083元)级别,对标特斯拉“Model 3定价策略”。
由于视双足为炫技,在整机设计上,灵初的人形机器人打造成“轮式+双手”的形象,长下面这样:
从Day One开始抛弃夹爪
先来说此次新推出灵巧手背后的故事。
灵初智能的目标是打造通用灵巧操作的机器人系统,强调的是从动作层面解决复杂任务。
在创始团队看来,“通用”和“复杂”,意味着机器人只配备夹爪来抓取远远不够——
抓取只是一种简单的单一技能,但现实中的任务,如使用工具、精密装配、翻页、扫码、旋转,必须具备更高自由度与灵巧度。
耶鲁大学等在2013年的《Grasp Frequency and Usage in Daily Household and Machine Shop(抓取频率及其在家庭与机械车间的应用)》一文中总结了家庭和车间环境下人类手部的高频抓取动作,共10种。
很多看似简单的操作,比如转笔、精准插拔、翻书、调方向,都需要高自由度手部与触觉反馈才能完成。
考虑到落地,工业场景中很多手中操作(如转动螺丝刀)和精密操作(如电池抓取与摄像头校准)场景交给低自由度的灵巧手尚且无法完成,更别提夹爪了。
因此从Day One开始,灵初就决定不做夹爪。
之所以选择自研,是因为灵初团队觉得市面上的灵巧手产品都不好用。
而灵初身上颇有做灵巧手的技术基因。
公司首席科学家杨耀东,北京大学人工智能研究院助理教授、强化学习领域的知名学者。
2022年时,他带领华人团队获得NeurIPS 2022具身灵巧操作冠军;那时候,杨耀东就开始和团队在仿真环境中用强化学习训练灵巧手完成复杂操作。
彼时团队中的一名00后陈源培,现在成了灵初的联合创始人。
他师从李飞飞和Karen Liu(领导斯坦福机器人中心运动实验室),曾在全球全球范围内首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作。
在机器人领域搞强化学习冷启动训练
从上面二人的经历中不难抽取出除「灵巧手」外的另一关键词:
强化学习。
这个词对大家来说并不陌生——近几年,它在语言模型后训练阶段立下丰功伟绩。然而陈源培介绍,在机器人抓取任务领域,强化学习还是一个难度较高的小众领域,有相关经验的人并不多。
他例举了做这件事的部分困难之处:两个挑战 + 一个关键矛盾。
第一,自由度越高,训练难度越大。
现在经常出街的机器狗基本上全身是12个自由度,其训练尚且不易。
灵初智能想做具身智能人形机器人,现阶段光是一只手就21个自由度,对算法训练的要求不言而喻——能做出来和能用起来,中间还是有巨大的gap。
第二,具身智能在真实世界里需要完成的任务,更多是“开放场景长程复杂任务”,单就“长程”这一点来说,非常容易有误差累积。
比如完成一个任务需要十个步骤,如果第二步有1cm的偏差,最后的操作结果就可能差出十万八千里来。
剩下的那一个关键矛盾在于强化学习模型常专用于一个场景,迁移难,跨任务泛化能力差。
灵初是怎么解决这些问题的?
在去年成立之初,灵初就提出分层端到端快慢脑架构技术路线。
快脑S1专注操作,灵巧操作涵盖多种形式,其操作经过tokenize后,作为S2慢脑(专注推理规划)的输入,和语言、视觉模态融合,基于Causal VLM自回归架构,实现多模态融合的推理和任务规划。
更直接的理解是,快脑是小脑层,控制手部完成精细动作,通过预训练仿真环境与真机数据回传优化动作序列;慢脑是大脑层,基于视觉感知(多摄像头采集牌面、手势),通过语言模型决策出牌策略,处理开放环境中的规则变化。
快慢脑通过Action Tokenizer隐式连接,构建了支持「动作感知-环境反馈-动态决策」全闭环的VLA模型,端到端训练,协同完成长程任务的灵巧操作。
而灵初推出的分层端到端VLA+强化学习算法模型Psi-R1,会结合历史动作与当前环境状态,理解动作的长期影响,避免重复试错和动作误差积累,建立动作与环境变化的因果链。
这就是灵初解决传统VLM决策短视的办法。
走一条“Model 3式的产业破局之路”
但王启斌和陈源培提到,做“灵巧手”或“大小脑算法”,都不能概括灵初的全部。
灵初自研的灵巧手不会单卖,“今天做一个灵巧手去卖,没意义。”
王启斌表示,灵初的打法是将软硬件深度耦合,系统层面定义体验。所有硬件都为算法、模型服务,强调系统闭环与数据链条完整性。
根据这套公式,灵初目前手里的牌是这样的——
- 整机:标志性紫色的轮足双手人形机器人;
- 动作系统:已迭代至Psi-R1,重视强化学习技术,持续推进中;
- 数据:从灵初接触单个场景中逐步获取并积累;
- 任务交付:目前ToB为主,3C制造和仓储物流两方重点发力,验证技术后再逐步向家庭场景延伸。
这么一套软硬件协同的人形机器人产品,灵初给出的(理想)价格是17000美金,约12万人民币。
值得注意的是,特斯拉Model 3的平均整车成本也在1.7万美元上下。
这不是偶然,而是灵初的特意计算和设计过的。
这个数字背后是走一条“Model 3式的产业破局之路”。
Model 3是特斯拉首款面向大众市场的车型,相比之前的Model S和Model X大幅降低,使特斯拉产品进入了普通消费者可接受的价格区间。
把价格打下来、体验做好,出货量就出现明显拉升。截至今年,Model 3累计销量已经超过一百万辆。
与此同时,特斯拉「硬件+FSD+数据」生态一体化,构建了自己的独特护城河。
与之对应,当具身智能玩家拥有可靠的、稳定的、量产级硬件平台,一体化的软件体验与数据回传机制,一个可以定义任务闭环的主导型平台,还能单一场景ROI,那么就像特斯拉推出了Model 3一般,产业就能从试验转向规模。
灵初现在做的,正是为机器人世界里的“Model 3”一步步打基础。
王启斌表示,具身智能需等到硬件成本降至10万元人民币级(预计2030年),且单场景出货量突破百万台,才能触发生态爆发。
一旦这一点打通了,产业拐点就来了。
就像Model 3之于智能电车行业,灵初也在押注:
不是第一个造出人形机器人的团队,但可能是第一个把机器人真正变成“可商用工具”的团队。
主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/21509.html