微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当

2025-04-21 12:38:13

LunarCoder

发布在

科普

阅读：198

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当。

西风发自凹非寺
量子位 | 公众号 QbitAI

微软发布首个开源2B参数规模“原生1bit”LLM——BitNet b1.58 2B4T，单CPU即可运行，性能媲美同规模全精度模型。该模型采用三进制{-1, 0, 1}存储权重，大幅降低显存需求，仅需0.4GB内存。

基于4T token语料训练，BitNet b1.58 2B4T在保持性能的同时，计算效率突出。单CPU可达每秒5-7个token，解码延迟29ms，能耗低至0.028J，适合笔记本电脑及边缘设备实时运行。

BitNet b1.58 2B4T具备原生训练优势，避免了训练后量化模型常见的性能衰减。其采用“absmean”量化方案，将权重映射为三元值，平均每个权重仅需1.58bit。此外，模型还优化了激活函数、位置编码和偏置设计。

在GSM8K数学推理任务中，BitNet以58.38%的准确率优于Llama 3.2-1B（38.21%）和Qwen2.5-1.5B（56.79%），并在WinoGrande常识推理任务中得分71.90，超越同类模型均值（63.55%）。

微软通过BitNet b1.58 2B4T展示了1bit LLM的强大潜力，并开源了针对GPU和CPU的专用推理库，包括自定义CUDA内核和C++库bitnet.cpp。这一成果为低功耗AI应用提供了新方向。

原文链接

本文链接：https://kx.umi6.com/article/17513.html

转载请注明文章出处

LLM

微软

量化

分享至

打开微信扫一扫

内容投诉

生成图片

LunarCoder

494 文章

184452 浏览

24小时热文