力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效
人脑网
作者 陈骏达
编辑 心缘

人脑网4月15日报道,就在刚刚,可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型,继续大幅领先业内前沿模型。可灵2.0在文生视频领域较OpenAI Sora实现367%的胜负比,在图生视频领域较谷歌Veo2实现了182%的胜负比。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

与可灵1.6相比,可灵2.0模型在动态质量、语义响应、画面美学等维度有明显进步。在下方案例中,可灵2.0准确呈现了日光从清晨到正午再到傍晚的变化,还使用了延时摄影的风格。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

▲右侧为可灵2.0

可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显着提升,色彩和光影更为高级,情绪表达更具感染力,并新增了60余种风格化效果

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

在本次2.0模型迭代中,可灵AI还正式发布AI视频生成的全新交互理念Multi-modal Visual Language(MVL),让用户能够利用图像参考、视频片段等多模态信息,将脑海中的复杂创意直接高效地传达给AI,或是对视频、图像等多模内容进行编辑。

用户可以将视频、图片等作为元素上传,并直接将其嵌入至提示词中。这些元素能在画面内以合乎逻辑的方式组合,进一步提升画面的可控性。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

可灵2.0系列模型发布即上线,用户现在已经可以在可灵AI官网和App内免费体验其生成效果。

体验链接:

https://klingai.com/cn/

一、告别慢动作画面,可灵2.0语义响应、动态质量与美学全面升级

快手高级副总裁、社区科学线负责人盖坤介绍,自去年6月发布以来,可灵AI已累计完成超20次迭代。截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

然而,现有的视频生成模型仍存在语义遵循能力差、动态质量不佳等问题,妨碍了创作者表达、控制生成结果的能力。可灵AI全系模型进行的本次升级,正是为了解决这些问题。

据快手副总裁、可灵AI负责人张迪介绍,可灵2.0的升级主要有三方面:语义响应、动态质量与画面美学。

升级后的可灵2.0可以更准确地反映人物表情、动作的变化,动作的丰富度、真实性有明显提升。在下方案例中,可灵2.0为准确描绘了提示词中“手锤桌子起身”的效果,而可灵1.6并没有完全还原。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

可灵2.0也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中,可灵2.0的生成结果不再是慢动作,镜头表现更加真实。可灵团队还对其生成画面的复杂动作、动作幅度进行优化。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

生成大片感的画面对可灵2.0来说也不是问题。下方这一画面中,无论是人物奔跑的动作,还是后方爆炸的效果,都十分逼真,角色演绎生动。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

可灵2.0对时间的理解能力提升,能帮助创作者生成更连贯、更具有故事性、延续性的画面。

图像生成模型可图2.0的升级同样是在指令遵循方面。下方这一案例的提示词中具有“伺服电机”、“机械女神”、“壁画”、“拉斐尔《雅典学院》的古典平衡感”等诸多要素,可图2.0的生成结果很好地还原了相关要素,

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

可图2.0能更好地展现提示词中对于色彩、光影的表述,对人物情绪的呈现更具感染力。下方4张图片均为可图2.0的生成结果,若未经提示,或许许多人都会认为这是某部电影的截图。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

二、打造人与AI交互全新语言,画面元素定制化更容易了

张迪在发布会现场分享了可灵2.0和可图2.0能力升级背后的技术创新。

可灵团队为可灵2.0采用了全新设计的DiT架构,这提升了其视觉、文本模态的信息融合能力。全新设计的VAE架构则使复杂动态场景下画面的过度更顺畅,质感更自然。同时,可灵团队还首次系统性研究了视频生成DiT架构的Scaling Law特性。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

在模型训练、推理策略方面,可灵2.0在后训练阶段利用了强化学习技术,这提升了其对复杂运动场景、主体交互的生成能力,也强化对运镜语言、构图术语等专业表达的理解与响应能力。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

张迪透露,目前可灵平台上高达85%的视频生成任务为图生视频任务。由此看来,更强的生图能力也成为创作者所需工具。

此次可图2.0的技术创新包括全新升级的文本表征处理链路、全面升级的数据体系和多样性以及全新的提示词工程和去噪策略。

升级后的可图2.0会深度思考用户的提示词,其逐步自适应的Diffusion去噪策略,可以优化出图细节,提升图像质量。

面向视觉创作者,可灵还推出了视频、图像多模态编辑能力,这些能力基于可灵提出的视觉生成交互理念Multi-modal Visual Language(MVL)

盖坤介绍,可灵团队发现,文字不足以向模型准确描述复杂动作、复杂表情等内容,可灵希望定义一种人与AI交互的全新语言,让模型能更好地理解人的想象力。

利用MVL技术,创作者可以利用视频、图像、文字等多模态信息,定义画面内人物的长相、着装、表情以及画面背景等。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

在这一过程中,文本扮演了语义骨架的作用,多模态描述子(MMW)能嵌入这一骨架,扩展描述的完备性、准确性。未来,可灵还计划支持文本+MMW动作描述文件,画面角色的运动轨迹也能完全可控。

力压OpenAI谷歌,快手掏出最强视频大模型,可灵2.0一句话搞定特效

结语:基础大模型+创作工具全栈升级,快手要打造全球第一AI视频应用

本次可灵AI 2.0的升级,不仅包括基础大模型的能力提升,还有面向创作者日常生产流程的全栈工具优化,盖坤称,可灵AI的愿景是“让每个人都能用AI讲出好故事”。

日前,在快手2025财年电话会议上,快手集团高管也分享了类似的观点,快手认为AI对其发展至关重要,将给予坚定、长期的投入,可灵会在技术升级的同时,进行全球市场和品牌运营活动。快手的目标是,将可灵打造为营收规模世界第一的AI视频应用。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/6100.html

(0)
人脑网的头像人脑网
上一篇 2025年4月16日 下午3:05
下一篇 2025年4月16日 下午3:07

相关推荐

  • 全球首个人形机器人马拉松!宇树和众擎组队,参赛阵容太炸了

    机器人前瞻(公众号:robot_pro)编译 江宇编辑 漠影 机器人前瞻4月18日消息,2025年4月19日清晨,北京亦庄泡桐大道的紫桐花海下,一场跨越生物与机械界限的赛事即将启幕——全球首届“人机共跑半程马拉松”​。 这场赛事不仅是人类与机器人首次同赛道竞技的历史性时刻,更是全球顶尖机器人技术的“全景秀场”。来自中国、美国、日本等国的20余支人形机器人战队…

    2025年4月21日
    1000
  • OpenAI押注的独角兽发新VLA模型,让机器人再也不怕陌生环境

    机器人前瞻(公众号:robot_pro)编译 江宇编辑 漠影 机器人前瞻4月25日消息,具身智能初创公司Physical Intelligence于4月22日重磅发布了VLA(视觉-语言-动作)模型π0.5。这款专为机器人控制设计的模型,能够在全新环境中执行复杂家务任务,比如清洁厨房、整理卧室,展示了领先的开放世界泛化能力。 更让人眼前一亮的是,π0.5成为…

    2025年4月25日
    600
  • 吴恩达痛批美国关税:拖了AI后腿

    人脑网(公众号:zhidxcom)编译|陈骏达编辑|Panken 人脑网4月12日消息,昨天,美国知名AI学者、斯坦福大学教授、谷歌大脑联合创始人吴恩达在其个人社交媒体平台与网站发布公开信,批评了美国最新关税政策,并分析了其对全球AI行业的影响。 吴恩达认为,对电力设备、服务器、冷却系统、网络硬件施加的关税将推高数据中心算力成本,延缓AI进步,针对消费电子设…

    2025年4月12日
    1900
  • 资本狂欢下,中国具身智能如何理性发展?多位产学研大咖探讨“打脸时刻”

    人脑网作者 ZeR0编辑 漠影 人脑网4月25日报道,具身智能的关键卡点到底在哪?中国具身智能的机遇在哪?“打脸时刻”何时上演?近期部分投资人“批量退出”,是否暗示着行业正陷入泡沫危机?随着具身智能发展从实验研发转向产业落地阶段,一系列关键问题接踵而至。 在近期2025商汤技术交流日具身智能论坛上,由主持人量子位总编辑李根主持,来自具身智能产学界的嘉宾——上…

    2025年4月25日
    400
  • 传美国暂缓英伟达H20芯片出口限制!老黄海湖庄园晚宴后迎来转机

    人脑网编译 王涵编辑 漠影 人脑网4月11日消息,据NPR(National Public Radio)近日报道,两位知情人士透露,在海湖庄园晚宴之后,美国白宫改变了对H20芯片的态度,搁置了增加限制的计划。 目前尚不清楚半导体芯片巨头英伟达的创始人兼CEO黄仁勋是否在活动中直接与特朗普对话,但两位消息人士称,在此之前,外界一直认为华盛顿与中国的贸易战将很快…

    2025年4月12日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信