标题:算力直降97%,GPT-3存储仅需20MB?新论文火了!
正文:1750亿参数的GPT-3只需20MB存储空间,基于1.58-bit训练,大幅节省算力(↓97%)和存储(↓90%)。近日,机器学习专家Will小哥发布了一篇引起广泛关注的论文。
他提出“noise_step”新技术,使模型能在1.58-bit低精度下训练,无需反向传播或动量加速,从而降低算力和存储消耗。这项技术允许模型直接在1.58-bit精度下训练,而无需传统反向传播。
通过在前向传播中引入随机性,noise_step利用雅可比向量积(JVP)方法估算梯度,减少了存储和计算需求。这种方法允许模型存储训练步骤而非权重,大幅缩小模型尺寸,加快下载速度。使用noise_step训练的模型还可恢复权重完整历史,提高微调效率。
此外,noise_step适合分布式训练,减少通信量,提高训练效率。尽管如此,模型泄露风险也随之增加。Will小哥还提供了CPU实现过程。
论文及实现详情: https://github.com/wbrickner/noise_step?tab=readme-ov-file https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing
参考链接: https://x.com/_brickner/status/1871348156786704657
原文链接
本文链接:https://kx.umi6.com/article/10916.html
转载请注明文章出处
相关推荐
换一换
对于AI基建产业链各环节,DeepSeek的利好与利空
2025-02-02 09:42:01
WPS:不存在文档被用作 AI 训练的情况,与抖音豆包在 AI 层面未开展任何形式合作
2024-07-21 15:37:53
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
2024-05-08 18:04:33
“废片”也值钱:谷歌、OpenAI 被曝购买创作者未发布视频素材,以训练 AI 模型
2025-01-11 16:38:03
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
不断用AI自己生成的内容去喂它,你猜怎么着?
2025-01-23 21:30:41
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
2024-06-02 00:33:31
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
2025-02-22 18:40:47
马斯克 X 更新开发者协议,禁止第三方使用平台帖子训练 AI 模型
2025-06-06 08:22:43
AI性能大幅提升!华硕发布PC新品搭载英伟达RTX Spark:支持200B参数模型本地运行
2026-06-05 16:07:23
智源&清华合作成果登上Science:脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
2026-06-05 19:13:44
大模型发展三年半,AI圈终于等来了一场“不要大厂,只赌脑洞”的比赛
2026-06-06 15:53:13
CVPR 2026 几何智能研究盘点:从看见形状,到理解运动与交互
2026-06-08 11:25:46
765 文章
651477 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08