谷歌DeepMind团队在8月27日发表论文,展示了一种创新技术——GenRM生成式验证器,旨在通过微调大型语言模型(LLMs)作为奖励模型,显著提升生成式AI的推理能力。这一突破性方法不同于传统的Best-of-N模式,它利用了LLMs的文本生成能力,通过预测下一个token来训练验证器,实现验证和解决方案生成的无缝集成。 GenRM验证器在算法和小学数学推理任务中的表现优于现有的判别式验证器和LLM-as-a-Judge验证器,在使用Best-of-N解决问题的百分比上提高了16-64%。这一进展不仅提升了AI系统的效率,还增强了其对复杂任务的理解和解决能力。 值得注意的是,GenRM的引入标志着人工智能奖励系统的关键演化,特别是对于防止新模型学习不当行为的能力。Google DeepMind强调,完善奖励模型以确保AI输出与社会责任标准一致是当前的紧迫需求。 这一研究成果不仅为AI领域带来了技术创新,也为未来AI伦理和社会责任的讨论提供了新的视角,标志着人工智能向着更安全、可控的方向发展。
原文链接
本文链接:https://kx.umi6.com/article/5773.html
转载请注明文章出处
相关推荐
换一换
谷歌 DeepMind 机器人 AI 模型实现本地化运行:可完成系鞋带等高难度任务
2025-06-25 00:23:19
谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险
2025-09-22 22:03:56
谷歌 DeepMind 发布 AlphaGenome 模型:AI 新视角探索 DNA 基因变异影响
2025-06-26 09:57:00
谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音
2024-06-18 23:13:28
银牌组最高分,谷歌 DeepMind 捅破 AI 数学推理上限:6 道国际奥数题解出 4 道
2024-07-26 10:41:59
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
2024-09-03 07:29:38
谷歌 DeepMind 入局“人造太阳”控制系统,AI 挑战 1 亿摄氏度高温
2025-10-17 09:11:34
三星在电视端首发 Perplexity AI 应用程序,带来更具创新性 AI 体验
2025-10-23 10:05:39
Meta将削减人工智能部门约600个职位 以提升决策效率
2025-10-22 23:55:49
OpenAI 视频生成应用 Sora 更新在即:编辑器、安卓版 App、社交功能……
2025-10-24 09:32:35
阿里巴巴将开启夸克AI眼镜预售 推动人工智能应用商业化
2025-10-23 13:08:00
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
通义千问Qwen3-VL家族新增两个Dense模型尺寸
2025-10-22 17:51:24
560 文章
277071 浏览
24小时热文
更多
-
2025-10-24 09:32:35 -
2025-10-24 09:31:18 -
2025-10-24 09:30:10