1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:今日最热论文:Scaling Law终结,量化不再适用,AI大佬纷纷赞同

这篇论文一经发布便引起广泛关注,被业界视为“很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的研究表明,训练的token越多,所需的精度就越高。

例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的增加,计算最优的精度也会增加。换句话说,大规模训练任务可能不再适合低精度量化。

结论指出,遵循Scaling Law意味着需要保持更高的精度,而低精度量化可能不再有效。这将影响GPU的设计和功能,因为传统上GPU的性能提升依赖于低精度计算的优化。

研究得出两个重要结论: 1. 后训练阶段进行量化可能导致预训练数据量越大反而越有害; 2. 在高精度(BF16)和下一代精度(FP4)下进行预训练可能不是最佳选择。

OpenAI员工对此表示赞同,认为研究结果将推动前沿技术的发展。

研究指出,当前扩展的焦点主要放在模型规模和数据量上,忽视了精度的重要性。随着模型的应用落地,低精度量化正在成为新趋势。因此,研究探讨了精度、参数和数据之间的权衡及其在预训练和推理中的表现。

研究发现,在较低精度下训练模型会导致较高损失,而在推理时使用低精度会导致性能下降。这解释了为何Llama-3难以量化,即模型在预训练阶段看到的数据越多,对量化的敏感性越高。此外,后训练量化引起的性能退化随模型训练数据量的增加而增加。

研究提出利用“精度感知”的Scaling Laws来预测模型在不同精度下的性能,并提供了两个关键公式。研究最终将后训练量化和预训练量化的影响统一起来,以预测预训练和后训练的损失。

研究建议: 1. 在资源有限时,可以考虑使用较低的精度来训练更大的模型; 2. 在低精度下训练时,可以考虑增加模型的规模; 3. 优化数据量,提高数据使用率,避免在预训练时使用过多的数据。

尽管该研究具有重要意义,但也存在一些局限性,例如只使用固定模型架构来控制变量。网友提出,一旦量化失败,可考虑扩展数据中心、转向更小的专业模型或知识蒸馏等方法。

原文链接
本文链接:https://kx.umi6.com/article/8660.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI“规模暴力”真的失效了吗?
2024-11-19 13:45:24
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”
2024-11-14 15:15:44
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
又到年底,那些AGI预言“实现”到哪一步了?
2024-11-26 08:24:17
Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观
2024-11-12 17:08:51
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
2025-09-01 18:21:10
李开复周志华纵论AI大模型,商汤徐立倡议「打脸时刻」,万字梳理MEET’25大咖激辩,320万观众同见证
2024-12-12 20:03:19
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”
2024-11-18 11:19:38
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
钛动科技陈德品:Scaling Law在营销应用中也适用,AIGC内容正在催生爆款 | MEET2025
2024-12-26 12:31:35
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
24小时热文
更多
扫一扫体验小程序