5月19日,谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究,通过强化学习微调(RLFT)技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略,却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号,优化推理与行动一致性。在多臂老虎机测试中,2B参数模型动作覆盖率提升12个百分点,20臂环境下频次偏见率从70%降至35%。井字棋实验显示,微调后模型胜率提升5倍,与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题,提升了AI的实际应用潜力。
原文链接
本文链接:https://kx.umi6.com/article/18884.html
转载请注明文章出处
相关推荐
换一换
大脑在不断预测并修正错误?
2025-04-30 19:56:24
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
2024-10-18 09:36:11
o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
2025-04-21 13:38:37
谷歌DeepMind推出第二代大规模基础世界模型Genie 2 可一键生成3D互动世界
2024-12-05 11:00:12
谷歌DeepMind开发新AI 可为视频生成配乐和对白
2024-06-20 11:22:33
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
2025-07-19 11:51:22
OpenAI 收购 Windsurf 计划告吹,后者 CEO 及创始人已被谷歌招入麾下
2025-07-12 11:50:23
谷歌DeepMind推出用于机器人的AI模型
2025-03-13 14:27:30
AI Agent迈向中央舞台:深度解析2025年进化新格局
2025-05-26 20:45:45
谷歌DeepMind联合开发力提示技术 AI生成视频可模拟真实运动
2025-06-04 09:23:57
谷歌DeepMind在数学奥林匹克中达到金牌级别成绩
2025-07-22 14:36:07
谷歌DeepMind将在英国设立自动化实验室 聚焦材料科学研究
2025-12-11 08:39:38
谷歌DeepMind人工智能模型登上《自然》封面
2026-01-29 10:10:41
742 文章
594952 浏览
24小时热文
更多
-
2026-04-24 16:19:57 -
2026-04-24 15:20:44 -
2026-04-24 15:19:39