谷歌 DeepMind 新研究强化思维链训练，让 AI 语言模型不再“纸上谈兵”

2025-05-20 14:40:51

灵感Phoenix

发布在

快讯

阅读：1221

5月19日，谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究，通过强化学习微调（RLFT）技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略，却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号，优化推理与行动一致性。在多臂老虎机测试中，2B参数模型动作覆盖率提升12个百分点，20臂环境下频次偏见率从70%降至35%。井字棋实验显示，微调后模型胜率提升5倍，与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题，提升了AI的实际应用潜力。

原文链接

本文链接：https://kx.umi6.com/article/18884.html

转载请注明文章出处

强化学习微调