1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:算力直降97%,GPT-3存储仅需20MB?新论文火了!

正文:1750亿参数的GPT-3只需20MB存储空间,基于1.58-bit训练,大幅节省算力(↓97%)和存储(↓90%)。近日,机器学习专家Will小哥发布了一篇引起广泛关注的论文。

他提出“noise_step”新技术,使模型能在1.58-bit低精度下训练,无需反向传播或动量加速,从而降低算力和存储消耗。这项技术允许模型直接在1.58-bit精度下训练,而无需传统反向传播。

通过在前向传播中引入随机性,noise_step利用雅可比向量积(JVP)方法估算梯度,减少了存储和计算需求。这种方法允许模型存储训练步骤而非权重,大幅缩小模型尺寸,加快下载速度。使用noise_step训练的模型还可恢复权重完整历史,提高微调效率。

此外,noise_step适合分布式训练,减少通信量,提高训练效率。尽管如此,模型泄露风险也随之增加。Will小哥还提供了CPU实现过程。

论文及实现详情: https://github.com/wbrickner/noise_step?tab=readme-ov-file https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接: https://x.com/_brickner/status/1871348156786704657

原文链接
本文链接:https://kx.umi6.com/article/10916.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
对于AI基建产业链各环节,DeepSeek的利好与利空
2025-02-02 09:42:01
马斯克 X 更新开发者协议,禁止第三方使用平台帖子训练 AI 模型
2025-06-06 08:22:43
不断用AI自己生成的内容去喂它,你猜怎么着?
2025-01-23 21:30:41
ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜
2024-06-02 00:33:31
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
2024-05-08 18:04:33
“废片”也值钱:谷歌、OpenAI 被曝购买创作者未发布视频素材,以训练 AI 模型
2025-01-11 16:38:03
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
2025-02-22 18:40:47
WPS:不存在文档被用作 AI 训练的情况,与抖音豆包在 AI 层面未开展任何形式合作
2024-07-21 15:37:53
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
英特尔第一季度营收136亿美元 同比增长7.2%
2026-04-24 08:00:05
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
真有人做AI小猫啊?!生产力和情绪价值都拉满了
2026-04-24 17:21:57
行业景气度高位运行 光模块企业扩产忙
2026-04-23 07:55:30
24小时热文
更多
扫一扫体验小程序