微软1bit LLM新研究:原生4bit激活值量化

微软又有“1 bit LLM”新成果了——

发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。

同时减少内存带宽&提升计算效率

微软1bit LLM新研究:原生4bit激活值量化

之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显着降低延迟、内存占用等推理成本。

然鹅BitNet b1.58激活值还是8-bit,这就导致没办法充分利用新一代硬件的4 bit计算能力,计算环节出现效率瓶颈。

还有个问题也很关键:

研究发现注意力层和前馈网络层的输入激活值分布还比较接近高斯分布,量化起来相对容易。

中间状态的激活值有很多异常值,这就给低bit量化带来了很大阻碍。

此前的BitNet a4.8相关研究,尝试过用4 bit量化输入,8 bit稀疏化处理中间状态。

这种方法虽然性能损失不大,可稀疏化在批量推理场景里不太适合用来提高吞吐量,因为硬件更适合密集计算。

微软1bit LLM新研究:原生4bit激活值量化

这次,团队最新推出了BitNet v2,通过引入H-BitLinear模块,该模块在激活量化前应用Hadamard变换。

研究中能有效将注意力层和前馈网络中尖锐的激活分布重塑为更接近高斯分布的形式,显着减少异常通道,使4 bit激活量化成为可能。

微软1bit LLM新研究:原生4bit激活值量化

下面来看看究竟是怎么做的。

引入H-BitLinear模块

对于权重量化,根据团队此前研究,使用per-tensor absmean函数将权重量化为三元值{-1, 0, 1}

微软1bit LLM新研究:原生4bit激活值量化

对于低bit激活,团队引入了H-BitLinear。

H-BitLinear被用于注意力层的权重矩阵Wo和前馈网络(FFN)层的Wdown中,这两处正是激活值异常值最为集中的位置

微软1bit LLM新研究:原生4bit激活值量化

该模块在激活值量化前应用Hadamard变换,满足以下条件:

微软1bit LLM新研究:原生4bit激活值量化

通过Hadamard变换,中间状态分布更接近高斯分布,显着减少了异常值数量,使其更适合INT4量化。

微软1bit LLM新研究:原生4bit激活值量化

对于8 bit和4 bit激活,分别采用per-token absmax和absmean函数,激活量化可以表示为:

微软1bit LLM新研究:原生4bit激活值量化

最终,H-BitLinear的矩阵乘法运算可形式化表示为:

微软1bit LLM新研究:原生4bit激活值量化

其中LN表示层归一化(layer normalization)操作。

另外,训练策略方面,研究人员用了STE来近似梯度,还采用混合精度训练更新参数。在反向传播的时候,会绕过量化里那些不可微函数,并且利用Hadamard变换矩阵的正交性,对梯度也进行变换。

团队还表示,4 bit激活的BitNet v2可以从8 bit激活的版本接着训练,用少量数据微调就行,性能损失基本可以忽略不计,优化器的状态还能接着用。

4bit激活版本相比8bit激活性能几乎不降

实验阶段,研究者将BitNet v2与BitNet b1.58、BitNet a4.8在不同模型规模(400M、1.3B、3B和7B)上进行了对比,所有模型都使用1.58bit权重训练

主要实验结果显示,引入Hadamard变换的BitNet v2(8 bit激活)相比BitNet b1.58在各规模模型上都有所提升,在7B规模上,平均准确率提高了0.61%。

微软1bit LLM新研究:原生4bit激活值量化

当降至4 bit激活时,BitNet v2的困惑度与BitNet a4.8相当,下游任务表现甚至更优。

研究者还对BitNet v2进行了低bit注意力状态的详细实验,采用后RoPE量化处理QKV状态。采用3 bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度KV缓存版本相当的准确率:

微软1bit LLM新研究:原生4bit激活值量化

与后训练量化方法SpinQuant、QuaRot相比较,BitNet v2表现更优:

微软1bit LLM新研究:原生4bit激活值量化

消融实验则进一步验证了Hadamard变换对低bit激活的关键作用,没有旋转变换则模型会发散。

微软1bit LLM新研究:原生4bit激活值量化

更多研究细节,感兴趣的童鞋可以查看原论文。

论文链接:https://arxiv.org/pdf/2504.18415

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9547.html

(0)
人脑网的头像人脑网
上一篇 2025年4月29日 下午3:26
下一篇 2025年4月29日 下午3:28

相关推荐

  • 商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接推理

    不得了。 现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了! 瞧~只需“喂”上一段柯南片段,AI就摇身一变成“名侦探”做剖析: 视频地址:https://mp.weixin.qq.com/s/JIsEmAk1T16YcYpXAOrJHw 它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。 如果再给这个AI“喂”上一段…

    2025年4月11日
    1500
  • 字节新推理模型逆袭DeepSeek,200B战胜671B,豆包史诗级加强?

    字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。 对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。 目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。 字节Seed团队聚焦大规…

    2025年4月11日
    1800
  • 清华张亚勤:10年后,机器人将可能比人都多

    “10年后,机器人将可能比人都多,会陆续进入工厂、社会,最终形态是进入家庭。未来每个人、每个家庭都有机器人。” 这样的预言,来自清华大学智能产业研究院(AIR)院长张亚勤。 在其新书《智能涌现》中,基于数十年对AI的思考与实践,从他领导下AIR研究院正在推进的三大方向——多模态大模型、自动驾驶和生物智能出发,张亚勤还给出了更多对AI技术演进方向的长期预判,包…

    2025年4月21日
    1200
  • 生数科技廖谦:多模态技术定将催生全新内容平台,实现完全个性化

    多模态生成技术持续突破内容创作的边界。 生数作为多模态领域的明星玩家,所提供的技术正推动AI视频创作进入系统性可用新阶段。 在本次第三届AIGC产业峰会上,生数科技产品副总裁、Vidu产品负责人廖谦分享了这样的观点: 为了完整体现廖谦的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子位主办的A…

    2025年4月18日
    1000
  • 狸谱App负责人一休:从“叫爸爸”小游戏到百万月活AI爆款产品

    消费者和创作者中间有巨大的gap,AI来了以后这个gap有可能被合到一起。 在今年的中国AIGC产业峰会上,狸谱App负责人一休以创业公司的视角,同与会嘉宾和在线观众一起分享了浸入AI产品创业的所思所感。 狸谱App是一个集同人创作、虚拟互动和社区交流于一体的AIGC二次元社区产品,用户群体主要是05后年轻人。产品上线后,仅4个月即达到百万月活。 一休表示,…

    2025年4月24日
    900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信