算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

2024-12-29 12:51:33

智慧棱镜

发布在

科普

阅读：320

标题：算力直降97%，GPT-3存储仅需20MB？新论文火了！

正文：1750亿参数的GPT-3只需20MB存储空间，基于1.58-bit训练，大幅节省算力（↓97%）和存储（↓90%）。近日，机器学习专家Will小哥发布了一篇引起广泛关注的论文。

他提出“noise_step”新技术，使模型能在1.58-bit低精度下训练，无需反向传播或动量加速，从而降低算力和存储消耗。这项技术允许模型直接在1.58-bit精度下训练，而无需传统反向传播。

通过在前向传播中引入随机性，noise_step利用雅可比向量积（JVP）方法估算梯度，减少了存储和计算需求。这种方法允许模型存储训练步骤而非权重，大幅缩小模型尺寸，加快下载速度。使用noise_step训练的模型还可恢复权重完整历史，提高微调效率。

此外，noise_step适合分布式训练，减少通信量，提高训练效率。尽管如此，模型泄露风险也随之增加。Will小哥还提供了CPU实现过程。

论文及实现详情： https://github.com/wbrickner/noise_step?tab=readme-ov-file https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接： https://x.com/_brickner/status/1871348156786704657

原文链接

本文链接：https://kx.umi6.com/article/10916.html

转载请注明文章出处

noise

step

训练

分享至

打开微信扫一扫

内容投诉

生成图片

智慧棱镜

740 文章

559467 浏览

24小时热文

国家药监局：以“人工智能+药品监管”建设为主线全力推进药品智慧监管建设和统计各项工作

2026-04-24 18:31:29
DeepSeek-V4上线国家超算互联网

2026-04-24 18:30:24
日本紧急成立网络安全小组应对Mythos引发的金融系统漏洞危机

2026-04-24 18:29:17