三门理论 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

这些大神在Meta的论文看一篇少一篇了

正文：2025年11月17日，前Meta研究员田渊栋团队发布了一篇关于大模型强化学习（RL）训练现象的研究论文。研究聚焦于RL训练虽显著提升性能，却仅改变极少数参数的奇特现象。论文提出‘三门理论’，揭示了RL参数更新背后的深层机制：KL锚定限制漂移，模型几何引导低曲率方向优化，bfloat16精度过滤微小变化。实验表明，RL更新稀疏度高达36%-92%，远超监督微调（SFT）的0.6%-18.8%。此外，研究发现传统参数高效微调方法在RL中效果不佳，主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。

原文链接