微软1bit LLM新研究:原生4bit激活值量化

微软又有“1 bit LLM”新成果了——

发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。

同时减少内存带宽&提升计算效率

微软1bit LLM新研究:原生4bit激活值量化

之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显着降低延迟、内存占用等推理成本。

然鹅BitNet b1.58激活值还是8-bit,这就导致没办法充分利用新一代硬件的4 bit计算能力,计算环节出现效率瓶颈。

还有个问题也很关键:

研究发现注意力层和前馈网络层的输入激活值分布还比较接近高斯分布,量化起来相对容易。

中间状态的激活值有很多异常值,这就给低bit量化带来了很大阻碍。

此前的BitNet a4.8相关研究,尝试过用4 bit量化输入,8 bit稀疏化处理中间状态。

这种方法虽然性能损失不大,可稀疏化在批量推理场景里不太适合用来提高吞吐量,因为硬件更适合密集计算。

微软1bit LLM新研究:原生4bit激活值量化

这次,团队最新推出了BitNet v2,通过引入H-BitLinear模块,该模块在激活量化前应用Hadamard变换。

研究中能有效将注意力层和前馈网络中尖锐的激活分布重塑为更接近高斯分布的形式,显着减少异常通道,使4 bit激活量化成为可能。

微软1bit LLM新研究:原生4bit激活值量化

下面来看看究竟是怎么做的。

引入H-BitLinear模块

对于权重量化,根据团队此前研究,使用per-tensor absmean函数将权重量化为三元值{-1, 0, 1}

微软1bit LLM新研究:原生4bit激活值量化

对于低bit激活,团队引入了H-BitLinear。

H-BitLinear被用于注意力层的权重矩阵Wo和前馈网络(FFN)层的Wdown中,这两处正是激活值异常值最为集中的位置

微软1bit LLM新研究:原生4bit激活值量化

该模块在激活值量化前应用Hadamard变换,满足以下条件:

微软1bit LLM新研究:原生4bit激活值量化

通过Hadamard变换,中间状态分布更接近高斯分布,显着减少了异常值数量,使其更适合INT4量化。

微软1bit LLM新研究:原生4bit激活值量化

对于8 bit和4 bit激活,分别采用per-token absmax和absmean函数,激活量化可以表示为:

微软1bit LLM新研究:原生4bit激活值量化

最终,H-BitLinear的矩阵乘法运算可形式化表示为:

微软1bit LLM新研究:原生4bit激活值量化

其中LN表示层归一化(layer normalization)操作。

另外,训练策略方面,研究人员用了STE来近似梯度,还采用混合精度训练更新参数。在反向传播的时候,会绕过量化里那些不可微函数,并且利用Hadamard变换矩阵的正交性,对梯度也进行变换。

团队还表示,4 bit激活的BitNet v2可以从8 bit激活的版本接着训练,用少量数据微调就行,性能损失基本可以忽略不计,优化器的状态还能接着用。

4bit激活版本相比8bit激活性能几乎不降

实验阶段,研究者将BitNet v2与BitNet b1.58、BitNet a4.8在不同模型规模(400M、1.3B、3B和7B)上进行了对比,所有模型都使用1.58bit权重训练

主要实验结果显示,引入Hadamard变换的BitNet v2(8 bit激活)相比BitNet b1.58在各规模模型上都有所提升,在7B规模上,平均准确率提高了0.61%。

微软1bit LLM新研究:原生4bit激活值量化

当降至4 bit激活时,BitNet v2的困惑度与BitNet a4.8相当,下游任务表现甚至更优。

研究者还对BitNet v2进行了低bit注意力状态的详细实验,采用后RoPE量化处理QKV状态。采用3 bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度KV缓存版本相当的准确率:

微软1bit LLM新研究:原生4bit激活值量化

与后训练量化方法SpinQuant、QuaRot相比较,BitNet v2表现更优:

微软1bit LLM新研究:原生4bit激活值量化

消融实验则进一步验证了Hadamard变换对低bit激活的关键作用,没有旋转变换则模型会发散。

微软1bit LLM新研究:原生4bit激活值量化

更多研究细节,感兴趣的童鞋可以查看原论文。

论文链接:https://arxiv.org/pdf/2504.18415

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9547.html

(0)
人脑网的头像人脑网
上一篇 2025年4月29日 下午3:26
下一篇 2025年4月29日 下午3:28

相关推荐

  • 基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯

    LIFEBench团队 投稿 你是否曾对大语言模型(LLMs)下达过明确的“长度指令”? 比如,“写一篇10,000字的长文,详细分析某个议题。”看似简单的要求,实际却往往让这些模型“力不从心”: 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文《LIFEBENCH: Evaluating Length Instruction Fol…

    2025年5月29日
    900
  • 7B小模型写好学术论文,新框架告别AI引用幻觉

    学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。 现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCop…

    2025年4月11日
    4500
  • 大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

    大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜 问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9&…

    2025年5月28日
    800
  • 微软CEO和奥特曼失了和,OpenAI被“断粮”

    就很突然。 许久没有同框的奥特曼和微软CEO纳德拉,刚刚在推特上“大秀恩爱”,还透露正在讨论合作新进展。 这没由来的操作,难道是有新发布? 但仔细一扒,或许更可能是回应新八卦。 就在这两天,《华尔街日报》放出猛料: 奥特曼和纳德拉,这对昔日让两家公司合作共赢的big name,在诸多事情上分歧日渐加大,渐行渐远 奥特曼是谁?OpenAI的掌舵者;纳德拉是谁?…

    2025年5月2日
    1500
  • 陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明

    快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了?! 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。 对于这一操作,网友们惊呆:这具有足够的历史意义。 在没有明显引导、宣传之下,他的订阅数一天时间已经有900+,观看数超两千,目前仍然在高速增长中。 大家赶在爆火之前留言: 具体来看看是如何…

    2025年5月12日
    1500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信