质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025

算力砍半,视觉生成任务依然SOTA!

达摩院在ICLR 2025上抛出的DyDiT架构:通过时间步长与空间区域的智能资源分配,将DiT模型的推理算力削减51%,生成速度提升1.73倍,而FID指标几乎无损!

更惊人的是,这一突破仅需3%的微调成本。

该方法通过引入动态化调整机制,可精准削减视觉生成任务中50%的推理算力,有效缓解传统扩散模型的计算冗余问题,相关工作已开源。

质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025

算力砍半效果依然SOTA

DiT架构作为当前主流的生成模型框架,有效实现了图像与视频的可控生成,推动生成式AI走向应用爆发。

然而,DiT架构的多步生成策略存在推理效率低、算力冗余等问题,在执行视觉生成任务容易造成极高的算力消耗,限制其往更广泛的场景落地。

业内提出高效采样、特征缓存、模型压缩剪枝等方法尝试解决这一问题,但这些方法均针对静态不变模型,又衍生出潜在的冗余浪费问题。

达摩院(湖畔实验室)、新加坡国立大学、清华大学等联合研究团队在论文《Dynamic Diffusion Transformer》提出了动态架构DyDiT,能够根据时间步长和空间区域自适应调整计算分配,有效缓解视觉生成任务中的算力消耗问题。

具体而言,DyDiT能在简单的时间步长使用较窄的模型宽度,减少计算资源;在空间维度上优先处理含有详细信息的主要对象,减少对背景区域的计算资源分配,提升推理效率与减少计算冗余的同时,保持生成质量。

使用者更可根据自身的资源限制或者部署要求,灵活调整目标的计算量,DyDiT将自动适配模型参数,实现效果与效率的最佳平衡。

质量无损,算力砍半!达摩院视觉生成新架构出道即SOTA|ICLR2025

实验结果表明,DyDiT在多个数据集和生成模型下均表现出高稳定性。

仅用不到3%的微调成本,将DiT-XL的浮点运算次数(FLOPs)减少了51%生成速度提高了1.73倍,在ImageNet测得的FID得分与原模型几乎相当(2.27vs2.07)。

据透露,DyDiT相关训练与推理代码已开源,并计划适配到更多的文生图、文生视频模型上,目前基于知名文生图模型FLUX调试的Dy-FLUX也在开源项目上架。

据悉,达摩院今年共有13篇论文被ICLR 2025录用,涵盖了视频生成、自然语言处理、医疗AI、基因智能等领域,其中3篇被选为Spotlight。

论文链接:
https://arxiv.org/abs/2410.03456
技术解读:
https://mp.weixin.qq.com/s/yqYg272vIztflZ6NfX5zJw
开源链接:
https://github.com/alibaba-damo-academy/DyDiT

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/8279.html

(0)
人脑网的头像人脑网
上一篇 2025年4月25日 下午3:55
下一篇 2025年4月25日 下午3:57

相关推荐

  • 中国首个晋级!智能辅助驾驶全球赛:德美日系共同选择Momenta

    这届上海车展,重头戏依然是智能辅助驾驶。 全球汽车品牌这两天齐聚上海,场面空前,热闹程度创下历史之最,短短2天召开了近200场发布会。 智能辅助驾驶仍然是发布会的热点话题,释放出的消息让从业者惊呼: 太快了 1年前,北京车展上头部玩家还在比拼「全国都能开」 而今天,已经有玩家率先迈向了「全球都能开」 一家中国智能辅助驾驶供应商,率先获得了全球认证,在全球化赛…

    2025年4月26日
    400
  • 无需数据标注!测试时强化学习,模型数学能力暴增|清华&上海AI Lab

    无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化—— 结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%。 实验过程中,强化学习的数据均由被训练的模型自身生成。 作者还发现,训练后的模型性能,准确性已经…

    2025年4月24日
    600
  • LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半

    AI不过周末,硅谷也是如此。 大周日的,Llama家族上新,一群LIama 4就这么突然发布了。 这是Meta首个基于MoE架构模型系列,目前共有三个款: Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。 最后一个尚未推出,只是预告,但Meta已经毫不避讳地称前两者是“我们迄今为止最先进的型号,也是同类产品中最…

    2025年4月6日
    1500
  • 最强32B开源中文推理大模型易主:1/20 DeepSeek-R1参数量SOTA

    千亿参数内最强推理大模型,刚刚易主了。 32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了 这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型 通用32B尺寸(Skywork-OR1-32B)完全超越同规模阿里QwQ-32B;代码生成媲美DeepSeek-R1…

    2025年4月14日
    2200
  • 整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic

    一段时隔整整50年的源代码,更是让微软这家科技巨头起家的源代码,正式被公开了—— Altair Basic,整整157页,由比尔盖茨亲自撰文发布。 在文章的开头,比尔盖茨对于这段代码做了这样的高度总结: 毕竟涉及Basic这门古早编程语言,以及个人计算机的发展源头,网友们在看到比尔盖茨的分享之后,也是感慨不已。 有人这样点评到: 也有与现在AI大模型结合的感…

    2025年4月6日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信