这些大神在Meta的论文看一篇少一篇了

2025-11-17 14:29:27

这些大神在Meta的论文看一篇少一篇了

蝶舞CyberSwirl

发布在

快讯

阅读：2044

正文：2025年11月17日，前Meta研究员田渊栋团队发布了一篇关于大模型强化学习（RL）训练现象的研究论文。研究聚焦于RL训练虽显著提升性能，却仅改变极少数参数的奇特现象。论文提出‘三门理论’，揭示了RL参数更新背后的深层机制：KL锚定限制漂移，模型几何引导低曲率方向优化，bfloat16精度过滤微小变化。实验表明，RL更新稀疏度高达36%-92%，远超监督微调（SFT）的0.6%-18.8%。此外，研究发现传统参数高效微调方法在RL中效果不佳，主成分权重更新常导致不稳定。论文为RL算法设计提供了新思路。

原文链接

本文链接：https://kx.umi6.com/article/28547.html

转载请注明文章出处

RLVR