5月19日,谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究,通过强化学习微调(RLFT)技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略,却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号,优化推理与行动一致性。在多臂老虎机测试中,2B参数模型动作覆盖率提升12个百分点,20臂环境下频次偏见率从70%降至35%。井字棋实验显示,微调后模型胜率提升5倍,与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题,提升了AI的实际应用潜力。
原文链接
本文链接:https://kx.umi6.com/article/18884.html
转载请注明文章出处
相关推荐
.png)
换一换
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
OpenAI拿IMO金牌火了,为何大批人却怒了?
2025-07-22 10:30:21
谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
2025-05-20 14:40:51
谷歌DeepMind推出基因预测模型AlphaGenome
2025-06-26 09:39:50
谷歌DeepMind推出用于机器人的AI模型
2025-03-13 14:27:30
谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字
2024-10-27 16:10:18
谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议
2024-07-15 14:25:42
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务
2025-06-27 16:10:14
大模型自指:代码生成的递归式自我提升
2025-09-02 20:37:56
OpenAI 官宣将发布自 GPT-2 以来的首个开放权重语言模型,并具有推理功能
2025-04-01 08:14:11
谷歌 DeepMind 研究再登 Nature 封面,隐形水印让 AI 无所遁形
2024-11-08 13:22:18
可令 AI 助理同时进行快 / 慢速思考,谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架
2024-10-27 11:01:18
AI Agent迈向中央舞台:深度解析2025年进化新格局
2025-05-26 20:45:45
557 文章
261722 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07