矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

金磊 发自 凹非寺

天下苦大模型矩阵乘法久矣。

毕竟不论是训练还是推理过程,矩阵乘法作为最主要的计算操作之一,往往都需要消耗大量的算力。

那么就没有一种更“快、好、省”的方法来搞这事儿吗?

有的,香港中文大学最新一篇仅10页的论文,便提出了一种新算法:

  • 能源可节省:5%-10%
  • 时间可节省:5%

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

论文作者之一的Dmitry Rybin表示:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

这么算矩阵乘法,更快!

矩阵乘法是计算机科学和数值线性代数中的核心问题之一。

自从Strassen和Winograd的开创性工作以来,研究者们一直在探索如何减少矩阵乘法所需的计算量。

尽管这类运算在统计、数据分析、深度学习和无线通信等领域有着广泛应用,例如协方差矩阵的计算和线性回归中的关键步骤,但对于具有特殊结构的矩阵乘法(如计算矩阵与其转置的乘积XXt)的研究相对较少。

从理论角度看,计算XXt与一般矩阵乘法具有相同的渐近复杂度,因此只能通过常数因子优化来提升速度。

因此,这篇论文《XXt Can Be Faster》提出了一种名为RXTX的新算法,通过结合机器学习搜索方法和组合优化技术,显着提升了XXt的计算效率。

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

我们先来了解一下RXTX。

整体来看,这个基于4×4分块矩阵的递归乘法,通过机器学习搜索与组合优化相结合的方法发现。

算法主要包含以下关键步骤:

  1. 分块与递归调用
  2. :将矩阵X划分为16个4×4子块,通过8次递归调用处理子问题,并计算26个一般矩阵乘积m1至m26。

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

  1. 对称乘积计算
  2. :直接计算8个子块的对称乘积s1至m8。
  3. 结果组合
  4. :通过线性组合上述乘积结果,得到最终的XXt矩阵各分块元素C11至C44。

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

与此前最先进的算法(基 Strassen的递归分治)相比,RXTX的递归关系式为 R(n)=8R(n/4) + 26M(n/4),而原算法为 S(n) = 4S(n/2) + 2M(n/2)。

这一设计使得RXTX的渐近乘法常数为 26/41≈0.6341,比原算法的2/3≈0.6667降低了约5%。

接下来,我们来看下乘法次数与运算总量分析。

通过论文中的定理1的推导,RXTX的乘法次数表达式为:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

实验数据表明,当n为4的幂次时,RXTX的乘法次数比原算法低5%,且随着n增大,这一优势持续保持:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

通过优化加法步骤(利用公共子表达式减少加法次数),RXTX的总运算量表达式为:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

而原算法的总运算量包含对数项,导致其增长更快。

实验显示,当n≥256时,RXTX的总运算量优于原算法;当n≥1024时,显着优于朴素算法:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

在6144×6144矩阵的测试中,RXTX的平均运行时间为2.524秒,比BLAS的默认实现快9%,且在99%的测试中表现更优:

矩阵乘法可以算得更快了!港中文10页论文证明:能源时间均可节省

尽管运行时间受硬件和内存管理影响,但理论分析表明,当n≥256时,RXTX即可展现速度优势。

值得一提的是,RXTX的发现得益于机器学习与组合优化的结合,具体流程如下:

  • RL代理生成候选乘积:通过强化学习策略生成大量可能的秩-1双线性乘积。
  • MILP枚举与筛选:
  • MILP-A:枚举候选乘积与目标表达式(XXt的各分块)之间的线性关系。
  • MILP-B:选择最小的乘积子集,确保所有目标表达式可通过线性组合表示。
  • 大邻域搜索迭代:通过迭代优化,逐步减少冗余乘积,提升算法效率。

这一方法借鉴了AlphaTensor的思路,但通过限制候选空间为二维张量,显着降低了计算复杂度,使得MILP求解器(如 Gurobi)能够高效处理。

论文地址:
https://arxiv.org/abs/2505.09814

参考链接:
[1]https://x.com/DmitryRybin1/status/1923349883945181392
[2]https://x.com/vikhyatk/status/1923541713618129273

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/14278.html

(0)
人脑网的头像人脑网
上一篇 2025年5月18日 下午3:18
下一篇 2025年5月18日 下午3:19

相关推荐

  • 所有AI工具共享记忆!MCP协议无需云端,Cursor、Claude都能用

    聊完就忘?当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了! 比如,你可以通过OpenMemory MCP用Claude规划路线图,但用Cursor执行任务,两个工具之间可以共享上下文信息,让数据得到延续。…

    2025年5月14日
    700
  • 瘦身不降智!大模型训推效率提升30%,京东大模型开发计算新研究

    京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊! 该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法。 它通过模型蒸馏、数据治理、训练优化与云边协同四大创新,这个项目将大模型推理效率平均提升30%,训练成本降低70%。 这个名为《Omniforce:以人为中心的、赋能大模型的、云边协同的自动机器学习系统》的项目…

    2025年5月21日
    600
  • 6个月估值翻倍!黄仁勋力荐的AI搜索公司欲开发浏览器取代Chrome

    AI搜索引擎公司Perplexity新融资消息曝光! 据金融时报消息,该公司正接近完成新一轮5亿美元融资谈判,最新估值达到近140亿美元(约合人民币1008亿元)。 这些资金大概率将被用来开发新的AI浏览器,从而与Chrome展开竞争。 从2022年至今,Perplexity估值可谓一路疯涨: 2024年6月的估值为30亿美元; 2024年12月飙升至90亿…

    2025年5月13日
    1100
  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网…

    2025年5月20日
    700
  • 被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑

    谢赛宁十年前被NeurIPS(当时还叫NIPS)拒收的论文,刚在今年获得了AISTATS 2025年度时间检验奖。 这篇论文就是《Deeply-Supervised Nets》(DSN,深度监督网络),2014年9月挂上arXiv。 时间匆匆,十一年过去,属于是真·时间检验了。 它提出的中间层监督思想被谢赛宁后续作品REPA(Representation A…

    2025年5月6日
    1300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信