RL - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

MiniMax M1全球技术闭门会实录：RL、混合架构、长上下文的下一步

MiniMax M1全球技术闭门会探讨了RL、混合架构及长上下文的前沿话题。 RL能否赋予模型新能力？ RL在有限上下文长度下能提升模型能力，通过改变输出分布优化性能。例如，预训练需10万token解决的问题，经RL可能仅需1万token。然而，Reward Modeling仍是核心瓶颈，尤其是非结...

原文链接

LunarCoder

07-22 13:32:06

分享至

打开微信扫一扫

内容投诉

生成图片

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

标题：SFT非必需！推理模型仅靠RL也能获得长思维链能力，清华CMU团队破解黑盒清华、CMU和IN.AI团队研究发现，长CoT（思维链）的涌现与训练计算量增加有关，但其触发条件尚不明朗。他们通过SFT（监督微调）和RL（强化学习）两方面探究长CoT的机制和优化策略。主要发现： 1. SFT非必需...

原文链接