阿里开源通义万相2.1首尾帧生视频模型

阿里开源通义万相2.1首尾帧生视频模型

作者 | 陈家阳
编辑 | 漠影

人脑网4月18日消息,通义万相首尾帧生视频模型Wan2.1-FLF2V-14B昨日宣布开源,用户仅需上传两张照片作为首帧和尾帧,就能得到一段5秒720p的高清视频。

该模型还可以开启灵感模式,通过AI智能扩写对视频创意进行描述,提升画面丰富度与表现力,从而满足用户更可控、更个性化的视频生成需求。

用户当前可以登陆通义万相官网免费体验新发布的首尾帧生视频模型,也能到 Github、Hugging Face或魔搭社区(Modelscope)下载该模型进行二次开发,解锁更多创意可能。

此外,凭借14B的参数量,该模型成为全球首个百亿参数规模的开源首尾帧生视频模型。

一、细节处理、情感表达、各种运镜,都不在话下

通义万相在官方公众号推文中放出了几个新鲜的演示案例,展示出新模型出色的工作能力。

阿里开源通义万相2.1首尾帧生视频模型

▲提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”

阿里开源通义万相2.1首尾帧生视频模型

该模型可以真实地还原物理规律,在光源出现时,地面上的人影会随着光束移动而发生变化。

在复杂的动态场景中,通义万相首尾帧生视频模型也能做到对内容细节进行高精度处理。比如女孩的衣服会随着跑步时的肢体动作而出现褶皱、深褐色的头发在光线影响下不时变换颜色等,让视频看上去更加逼真。

阿里开源通义万相2.1首尾帧生视频模型

▲提示词:“写实风格,一个身穿粉色运动服的女生在城市街道中跑步,镜头先特写女生的脸部,然后记录下女生转过街角向前跑去的背影。”

阿里开源通义万相2.1首尾帧生视频模型

当生成首尾帧衔接画面时,通义万相首尾帧生视频模型能够根据不同运镜方式对视频场景进行丰富和完善。

阿里开源通义万相2.1首尾帧生视频模型

▲提示词:“漫画风格,黑暗中,一个男人正在看向一束光,镜头逐渐拉远,展现出四周都是楼梯的环境全貌。”

阿里开源通义万相2.1首尾帧生视频模型

通义万相首尾帧生视频模型也可以满足用户对视频情感表达的诉求。

阿里开源通义万相2.1首尾帧生视频模型

▲提示词:“卡通风格,一个打着红色雨伞的蓝色卡通人物站在雨中。它的眼神充满忧郁。”

阿里开源通义万相2.1首尾帧生视频模型

此外,通义万相首尾帧生视频模型可以自主优化提术语指令,帮助创作者快速生成创意视频,降低使用门槛,使更多用户能够轻松生成高质量的视频内容。

二、通义万相2.1首尾帧生视频模型是如何训练的

Wan2.1系列模型均采用DiT(Diffusion in Transformer)架构,将扩散模型的生成能力与Transfomer模型的特征提取和长序列处理能力相结合,并通过VAE视频压缩让视频生成过程兼顾清晰度和工作效率。

Wan2.1还借助Full Attension机制,使得生成视频在时间和空间上都具有很高的一致性,不会出现时间上动作跳跃、不连贯,或者空间上物体异位、形态变化不合理等情况。

阿里开源通义万相2.1首尾帧生视频模型

▲通义万相模型结构图

在Wan2.1系列模型的基础架构上,通义万相首尾帧生视频模型新增了条件控制分支,以用户上传的首、尾帧照片作为控制条件,实现了视频从首帧到尾帧丝滑准确的过渡效果。

此外,该模型还提取了首帧和尾帧的CLIP语义特征,并将处理结果反馈到DiT的生成过程中,保证模型生成首尾帧衔接画面时的稳定性。

阿里开源通义万相2.1首尾帧生视频模型

▲通义万相首尾帧生视频模型架构图

在训练和推理阶段,通义万相首尾帧生视频模型采用了线性噪声轨迹的流匹配(Flow Matching)方法,用于处理噪声和优化视频生成过程,使高精度的视频切片训练成为可能。

为在有限内存下支持高清视频推理,通义万相首尾帧生视频模型使用了模型切分策略和序列并行策略。通过多种优化在保证推理效果无损的同时,大幅缩短了推理时间。

通义万相首尾帧生视频模型的训练过程总共经历了三个阶段,从480p分辨率下的混合任务训练,到针对首尾帧生成能力的专项优化,最后在720p分辨率下完成高精度训练。

结语:首尾帧生视频模型为使用者提供更多创作自由度

相较于文生视频和单图生视频,首尾帧生视频具有更强的可控性,用户可以自主决定开头和结尾画面,并通过提示词指令对生成内容进行描述。

但这无疑提高了训练首尾帧生视频模型的难度,既要实现画面从首帧到尾帧的流畅衔接,又要满足视频本身的质感和自然表现。

通义万相首尾帧生视频模型不仅可以实现对图像细节的高精度处理,还能生成和谐自然的动作视频,展现出了强大的技术优势和创新性,开源后将为图生视频领域带来更多价值。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7229.html

(0)
人脑网的头像人脑网
上一篇 2025年4月21日 下午4:16
下一篇 2025年4月21日 下午4:18

相关推荐

  • 深圳机器人公司宣布宣亿元融资,普华资本领投

    机器人前瞻(公众号:robot_pro)作者江宇编辑漠影 机器人前瞻4月17日消息,深圳工业机器人企业劢微机器人宣布完成亿元级B2轮融资。本轮融资由普华资本领投,梅花创投连续三轮加注,明论资本担任独家财务顾问。 劢微机器人成立于2019年,作为一家专注于智能制造及智能物流的企业,此次融资将重点投入核心技术研发、全球市场拓展及智能工厂建设三大领域,通过技术研发…

    2025年4月18日
    1600
  • 骁龙8至尊小平板!拯救者Y700四代配置曝光

    今日,联想拯救者官方微博正式揭晓了拯救者Y700四代平板的核心配置详情,并同步与iPad mini 7展开了一场“硬核”对比。   在外观设计上,拯救者Y700四代以207.58mm的长度与128.5mm的宽度,展现出比iPad mini 7更为紧凑的身形,屏占比优势显著,单手操控体验更佳,尽管340g的机身重量略高于iPad mini 7,但依旧在便携性上…

    2025年4月23日
    500
  • 联发科猛攻AI智能体,发天玑9400+旗舰芯,小米OV荣耀、阿里微软都来了

    人脑网作者 云鹏编辑 心缘 人脑网4月11日报道,刚刚联发科在深圳举办了年度开发者大会,亮出了自家最新旗舰手机芯片天玑9400+,同时联合OPPO、vivo、小米、荣耀、阿里云、微软等厂商发布了天玑智能体化体验领航计划,加码自家AI生态的建设。 联发科还面向开发者发布了新的开发工具集、升级了天玑AI开发套件2.0,简单来说,天玑生态开发者们可以更高效地基于天…

    2025年4月11日
    1400
  • 从MCP到超级Agent:这场AI生产力革命将淘汰谁?

    人脑网作者 程茜编辑 漠影 大模型竞争格局生变:底层技术优势不再是决胜关键,围绕MCP协议与超级Agent生态的构建能力正成为释放应用价值的核心竞技场。 就在上周五的Create 2025百度AI开发者大会上,百度智能云千帆大模型平台亮出了自己的最新打法:集成百度自研、第三方等上百个业界知名模型,提供全面的模型定制、精调工具链,上线企业级Agent开发工具链…

    2025年4月29日
    800
  • 时隔6年,OpenAI又要开源大模型!轻量版Deep Research深夜上线,免费可用

    人脑网编译 陈家阳编辑 漠影 人脑网4月25日消息,据TechCrunch报道,OpenAI计划今年夏天开源一款全新的大语言模型,可供免费下载,并采用高度宽松的许可协议,几乎不限制使用或商业化。这将是该公司自GPT-2以来首款真正的开源模型。 该模型开发工作由OpenAI研究副总裁艾丹·克拉克(Aidan Clark)主导,尚处于早期研发阶段,其目标是打造一…

    2025年4月26日
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信