对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路
人脑网
作者 陈骏达
编辑 程茜

人脑网5月8日报道,在2年内发布16款多模态大模型之后,业内已将阶跃星辰称之为“多模态卷王”。今天,阶跃星辰创始人兼CEO姜大昕向人脑网等媒体揭秘了他背后的思考。姜大昕认为,“追求智能的上限”依旧是现阶段AI业内的重点,而多模态正是实现AGI的必经之路。

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

▲阶跃星辰创始人兼CEO姜大昕

在姜大昕看来,无论是从AGI的定义还是AI应用的实际需求而言,多模态能力都是至关重要的。AI在视觉智能、空间智能、运动智能等任何一个方向出现短板,都有可能延缓AGI实现。

在一个多模态模型内融合理解与生成能力,即多模态理解生成一体化,是姜大昕眼中多模态模型能力提升并实现GPT-4级别的类人智能的关键。不过,多模态理解生成一体化架构仍处于探索期,尚未出现像语言模型界Transformer一样的可拓展(Scalable)架构。

在AI应用领域,阶跃星辰更多地将其模型提供给其他应用开发者。姜大昕认为,模型性能的突破会早于商业化

此外,姜大昕还围绕着AI技术演进路线、AGI必备要素、多模态模型技术路径和AI应用等话题进行了介绍。

一、多模态是AGI必经之路,阶跃密集发布多项成果

姜大昕称,当下,AI技术正沿着模拟世界、探索世界、归纳世界的路径演进。

模仿学习阶段,模型主要从海量数据中学习多种模态的表征,核心问题是如何用深度神经网络统一表达多种模态。

探索世界阶段,模型需要具备复杂问题求解能力和慢思考能力。这两大能力可以通过强化学习技术获得,前生成式AI时代的AlphaGo、生成式AI时代的OpenAI o1等都是运用了这一技术。在姜大昕看来,DeepSeek-R1将推理模型由“趋势”转变为了“范式”,业内大部分厂商都开始推出类似的模型。

归纳世界阶段,模型逐渐具备自主学习能力,能发现客观世界的规律,在AI for Science领域发挥重要作用。

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

阶跃星辰一直认为,多模态是实现AGI的必经之路。从定义上来看,AGI对标的是人类智能,除了需要具备语言模态对应的符号智能,还需具备视觉智能、空间智能、运动智能,任何一个方向出现短板,都会延缓AGI的实现。

从应用角度看,多模态同样必不可少。智能系统只有具备听、看、说等能力后,才能理解用户环境,和用户自然交互。

正是基于上述原因,阶跃星辰格外重视多模态模型,几乎以每个月发布一款基础大模型的速度进行迭代。日前,阶跃星辰联合Ace Studio开源Ace-Step音乐大模型,参数量仅有3.5B,支持19种语言,最快可在15秒内生成一首歌曲。

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

近日,阶跃星辰还发布了Step-R1-V-Mini多模推理模型,具备高精度感知能力。现场演示视频中,这款模型可以结合照片中的文字、图像信息,综合推理,并正确判断出照片所对应的场馆。这款模型已运用至门店巡检、短剧审核等生产场景。

二、视觉领域的GPT-4时刻尚未到来,押注多模态理解生成一体化

谈及未来AI研究的发展趋势,姜大昕着重分享了多模态理解生成一体化这条技术路径。

多模态理解生成一体化指的是在同一模型内完成理解与生成任务,这项技术已在语言层面实现。如今的大语言模型既能完成总结、问答等理解型任务,也可以完成撰写文章等生成性任务。

在多模态领域,由于图片、视频等模态的复杂度极高,理解生成一体化难题还有待突破,这也导致现有多模态模型在实际应用场景中存在一些局限性。

例如,在生成一段“教师撰写板书”的视频时,现有多模态模型已经有能力生成画面中手的姿势、粉笔书写的痕迹,但如果要根据现有画面内容预测下一步应该书写什么内容,就需要整合理解能力。

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

姜大昕称:“生成需要理解控制,理解需要生成监督。”也就是说,为了确保生成的内容是有意义的,模型需要对上下文有更好的理解能力;而只有当模型能够生成内容时,才意味着模型真正理解了上下文。

目前,在多模态理解生成一体化方向,尚未出现可拓展的模型架构。姜大昕认为,对多模态模型而言,逼近人类智能的“GPT-4”时刻尚未到来,对应大语言模型的发展阶段,多模态模型仍处于“前Transformer”时期

在多模态理解生成一体化架构探索结束后,多模态模型还需走过多个阶段:利用海量图片和视频进行预训练和指令遵循能力培养、提升视觉时空推理能力、融合3D能力等,最终形成世界模型。姜大昕认为,现在AGI的路线已愈发清晰,如果走到世界模型阶段,“我眼中的AGI就实现了”。

对话阶跃星辰创始人:2年发16款多模态模型,实现AGI的必经之路

姜大昕透露,阶跃星辰内部现在有多个团队在探索多模态理解生成一体化的架构。同时,在这一方向他们已有了最新的成果——开源Step1X-Edit图像编辑模型,这款模型已经初步具备了一定的理解生成一体化能力,阶跃星辰也会在未来几个月内发布能力更强的图像编辑模型。

三、超级模型+超级应用双轮驱动,模型性能突破早于商业化

阶跃星辰一直坚持超级模型+超级应用双轮驱动的策略,在应用层,2025年最热的概念就是Agent。姜大昕认为,2025年Agent爆发有两大必要条件。

首先,多模态能力使Agent能感知环境(视觉、语音等),理解任务上下文。其次,慢思考(深度推理)能力使模型能处理复杂任务,分步骤进行分析与决策。

Agent能力的爆发使阶跃星辰看到了智能终端Agent的潜力,这也是该公司在应用侧的重要发力方向。谈及这一决策,姜大昕称,终端是用户感知的延伸,诸如手机、AI眼镜、耳机等设备天然收集环境数据,可帮助Agent理解用户需求。同时,智能终端也具备帮助用户完成特定任务的行动能力。

目前,阶跃星辰在智能终端Agent的落地场景包括手机、汽车与机器人等。在OPPO手机上的“一键问屏”功能就使用了阶跃星辰的多模态模型;吉利的智能座舱中则使用了阶跃星辰的端到端语音交互技术。

阶跃星辰还与智元机器人等展开合作,阶跃星辰的多模态大模型相当于机器人的“大脑”,结合具身领域负责动作的“小脑”,实现从感知、理解、规划任务到控制运动。

在其它AI应用领域,阶跃星辰将基础大模型能力提供给其它各垂类应用开发者。姜大昕认为,模型性能的突破会早于商业化,只有模型性能突破,才能催生具有潜力的应用场景。

结语:坚持基础模型研发,多模态成差异化优势

作为国内较早布局多模态方向的大模型创企,多模态模型占阶跃星辰模型发布总量的70%以上。

姜大昕称,未来,阶跃星辰将坚持基础大模型的研发,追求AGI这一初心不会改变。在当前的基础大模型格局中,阶跃星辰将多模态作为其差异化优势,积极探索多模态理解与生成一体化这一前沿方向,也相信该领域存在着巨大的机会。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/12368.html

(0)
人脑网的头像人脑网
上一篇 2025年5月10日 下午3:30
下一篇 2025年5月10日 下午3:31

相关推荐

  • ABB携手BurgerBots,在加州开设机器人快餐餐厅,汉堡制作只需27秒

    机器人前瞻(公众号:robot_pro)编译 江宇编辑 漠影 机器人前瞻4月30日消息,ABB Robotics与BurgerBots在美国加州洛斯加托斯开设了一家新型快餐餐厅,采用ABB的IRB 360 FlexPicker高速拾取机器人和YuMi双臂协作机器人进行快速、精准的餐食组装。 BurgerBots是一家专注于餐饮自动化的初创公司,利用机器人技术…

    2025年5月1日
    1200
  • 文心X1/4.5 Turbo幕后技术大公开!百度高管深度解读

    人脑网坐着 王涵编辑 漠影 人脑网5月20日报道,继2025年4月25日百度在Create 2025 AI开发者大会上发布文心大模型4.5 Turbo及X1 Turbo后,百度于今日针对相关技术成果进行了深度解读与数据更新。 在此次活动中,百度集团副总裁吴甜、中国信息通信研究院人工智能研究所平台与工程化部主任曹峰及用户代表,围绕文心大模型最新技术进展、全球大…

    2025年5月21日
    1000
  • 人大高瓴人工智能学院6年进展:一年发160篇顶会论文,多位学生用AI大模型创业

    人脑网作者 陈骏达编辑 心缘 人脑网5月23日报道,5月18日,中国人民大学高瓴人工智能学院向外界分享了该学院在AI研究方面取得的最新成果,以及学院本硕博在校生和毕业生的创新创业项目情况。高瓴人工智能学院成立刚满6周年,已交出一份令人惊喜的答卷。 高瓴人工智能学院于2020年开启了大模型研发工作,是国内最早开始研发大模型的单位之一,现已布局了20多个研究方向…

    2025年5月23日
    700
  • AWS神秘AI编程工具曝光!支持多模态交互,生成代码“近乎实时”

    人脑网编译 金碧辉编辑 程茜 人脑网5月8日消息,今天上午,据外媒Business Insider独家报道,亚马逊云科技(AWS)正在秘密开发一款代号为“Kiro”的AI编程工具。该工具通过多模态界面与AI Agent协同,旨在实现“近乎实时”的生成代码,重构软件开发流程。 Kiro的核心亮点在于多模态交互能力:其内置的AI Agent可实时调用知识库、第三…

    2025年5月10日
    1200
  • 小米首个推理大模型突然开源!股价上涨近5%

    人脑网作者 ZeR0编辑 漠影 人脑网4月30日报道,今日,小米开源其首个推理大模型Xiaomi MiMo。其中经强化学习训练形成的MiMo-7B-RL,在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B参数量,得分超过了OpenAI的闭源推理模型o1-mini和阿里Qwen开源推理模型QwQ-32B-Pr…

    2025年4月30日
    1600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信