微软开源爆火1.58bit大模型推理框架！千亿参数模型量化后单CPU可跑，速度每秒5-7个token

2024-10-22 15:04:47

未来编码者

发布在

科普

阅读：0

微软开源了一款名为BitNet b1.58的大模型推理框架，这一框架将传统16位浮点数模型参数压缩成三进制{-1, 0, 1}，每个参数只需1.58位信息表示。这使得模型在保持一定精度的同时，大幅减少了存储空间和计算资源需求，甚至能在单个CPU上运行千亿参数模型，速度达到每秒5-7个token。

该框架被称为1bit大模型推理框架，已在GitHub上收获7.9k星标。BitNet b1.58不仅在计算效率上有所突破，还显著降低了能耗。在ARM CPU上，性能提升了1.37至5.07倍，能耗降低55.4%至70.0%；而在x86 CPU上，加速效果为2.37至6.17倍，能耗减少71.9%至82.2%。

微软的研究团队在一年前就开始探索1bit大模型，并在近期发布的BitNet b1.58中增加了0值，从而更好地平衡精度与计算效率。这项技术的关键在于将模型权重量化为三元值{-1, 0, 1}，并采用特定的量化函数来约束权重。BitNet b1.58在矩阵乘法方面的能耗节省了71.4倍。

尽管这项技术前景广阔，但需要从头开始训练模型，成本较高。Huggingface最近整合了BitNet b1.58，通过一些技巧使现有模型可以直接微调到1.58bit，降低了应用门槛。然而，这一技术仍有局限性，需要在实践中进一步验证其实际效果。

原文链接

本文链接：https://kx.umi6.com/article/7673.html

转载请注明文章出处

1.58bit