
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
微软发布BitNet v2框架,实现1 bit LLM的原生4 bit激活值量化,以充分利用新一代GPU(如GB200)的4 bit计算能力,减少内存带宽并提升计算效率。此前,微软的BitNet b1.58将权重量化至1.58-bit,但激活值仍为8-bit,无法充分发挥硬件潜力。此次研究针对注意力...
原文链接
《科创板日报》18日消息,微软发布全球最大的1-bit AI模型BitNet b1.58 2B4T,该模型包含20亿参数,能够在普通CPU(如苹果M2)上高效运行。BitNet通过采用仅-1、0、1的极简权重设计,实现了高内存和计算效率,在多项推理任务中表现优于Meta、谷歌等公司推出的同类模型,且具备更快的速度和更低的资源占用。不过,BitNet目前依赖于微软自研的bitnet.cpp框架,兼容性存在一定局限性。
原文链接
4月17日,微软研究团队推出开源大型语言模型BitNet b1.58 2B4T,参数达20亿,却仅需0.4GB内存,颠覆AI计算效率。该模型采用1.58位低精度架构原生训练,摒弃传统后量化方式,性能接近全精度模型。通过创新BitLinear层及W1.58A8配置,每权重仅需1.58位存储。模型历经预训练、SFT微调及DPO优化三阶段开发,表现优异,能耗低至每token 0.028焦耳,CPU解码延迟29毫秒。目前,BitNet已以MIT许可证在Hugging Face发布,但高效性需依赖微软专用C++框架bitnet.cpp实现。微软计划优化GPU/NPU支持,扩展上下文窗口并探索多语言功能。
原文链接
微软近日开源了名为 `bitnet.cpp` 的1比特大语言模型(LLM)推理框架,该框架可在CPU上直接运行,无需GPU即可在本地设备上处理具有1000亿参数的大型AI模型。据称,使用该框架可实现6.17倍速度提升,同时能耗降低高达82.2%。传统大语言模型需依赖庞大GPU基础设施及高能耗,限制了小型企业和个人用户的使用。`bitnet.cpp` 通过降低硬件需求,使更多用户能以较低成本使用AI技术。目前,该框架已支持ARM和x86架构,并计划扩展至NPU、GPU和移动设备。测试显示,ARM CPU上加速比为1.37x至5.07x,x86 CPU上为2.37x至6.17x,能耗减少55.4%至82.2%。`bitnet.cpp` 的推出有望改变LLM的计算方式,减少对硬件的依赖,促进本地LLM的应用,提升用户隐私保护。该框架已在GitHub上发布。此次开源事件发生于10月18日。
原文链接
加载更多

暂无内容