正文:2025年11月17日,前Meta研究员田渊栋团队发布了一篇关于大模型强化学习(RL)训练现象的研究论文。研究聚焦于RL训练虽显著提升性能,却仅改变极少数参数的奇特现象。论文提出‘三门理论’,揭示了RL参数更新背后的深层机制:KL锚定限制漂移,模型几何引导低曲率方向优化,bfloat16精度过滤微小变化。实验表明,RL更新稀疏度高达36%-92%,远超监督微调(SFT)的0.6%-18.8%。此外,研究发现传统参数高效微调方法在RL中效果不佳,主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。
原文链接
本文链接:https://kx.umi6.com/article/28547.html
转载请注明文章出处
相关推荐
换一换
田渊栋卡帕西力荐Nano Banana新玩法:论文变漫画、手写解题以假乱真,谷歌这波赢麻了
2025-11-24 13:57:29
LeCun曝Meta作弊刷榜,田渊栋:我没想到这个结局
2026-01-04 14:07:29
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
太疯狂了!Meta裁员裁到田渊栋头上,连组员一锅端
2025-10-23 13:04:46
奖励是假的,能让Qwen提升25%性能却是真的!
2025-05-29 19:38:47
田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了
2025-10-24 09:29:01
人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
2026-01-19 13:57:39
NuerIPS唯一满分论文曝光,来自清华上交
2025-11-11 17:16:47
在 AI 最火热的时候,AI 大牛田渊栋写了本小说《破晓之钟》
2024-08-23 13:23:52
谷歌发布一系列新AI工具
2026-04-22 21:32:58
OpenAI正式发布GPT-5.5
2026-04-24 09:02:17
日本紧急成立网络安全小组 应对Mythos引发的金融系统漏洞危机
2026-04-24 18:29:17
DeepSeek-V4发布,华为云首发适配
2026-04-24 18:26:00
694 文章
549648 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38