5月19日,谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究,通过强化学习微调(RLFT)技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略,却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号,优化推理与行动一致性。在多臂老虎机测试中,2B参数模型动作覆盖率提升12个百分点,20臂环境下频次偏见率从70%降至35%。井字棋实验显示,微调后模型胜率提升5倍,与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题,提升了AI的实际应用潜力。
原文链接
本文链接:https://kx.umi6.com/article/18884.html
转载请注明文章出处
相关推荐
换一换
谷歌DeepMind推出第二代大规模基础世界模型Genie 2 可一键生成3D互动世界
2024-12-05 11:00:12
谷歌 DeepMind 研究再登 Nature 封面,隐形水印让 AI 无所遁形
2024-11-08 13:22:18
谷歌DeepMind推出用于机器人的AI模型
2025-03-13 14:27:30
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
2024-10-18 09:36:11
谷歌把整个地球装进大模型!实时观测,按天更新
2025-08-01 08:58:42
Claude团队新研究:为什么有的模型假装对齐有的不会
2025-07-09 18:06:47
谷歌DeepMind在数学奥林匹克中达到金牌级别成绩
2025-07-22 14:36:07
谷歌 DeepMind 最强 AI 手语翻译模型:SignGemma 登场,打破手语沟通壁垒
2025-05-31 12:05:15
谷歌DeepMind推出基因预测模型AlphaGenome
2025-06-26 09:39:50
谷歌 DeepMind 专利革新蛋白质设计,开启 AI 原子级精度新时代
2024-12-07 14:46:21
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
2025-06-10 17:50:38
谷歌Deepmind CEO:算力才是AI进化的硬道理
2025-02-12 15:35:12
可令 AI 助理同时进行快 / 慢速思考,谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架
2024-10-27 11:01:18
612 文章
351479 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42