谷歌DeepMind团队在8月27日发表论文,展示了一种创新技术——GenRM生成式验证器,旨在通过微调大型语言模型(LLMs)作为奖励模型,显著提升生成式AI的推理能力。这一突破性方法不同于传统的Best-of-N模式,它利用了LLMs的文本生成能力,通过预测下一个token来训练验证器,实现验证和解决方案生成的无缝集成。 GenRM验证器在算法和小学数学推理任务中的表现优于现有的判别式验证器和LLM-as-a-Judge验证器,在使用Best-of-N解决问题的百分比上提高了16-64%。这一进展不仅提升了AI系统的效率,还增强了其对复杂任务的理解和解决能力。 值得注意的是,GenRM的引入标志着人工智能奖励系统的关键演化,特别是对于防止新模型学习不当行为的能力。Google DeepMind强调,完善奖励模型以确保AI输出与社会责任标准一致是当前的紧迫需求。 这一研究成果不仅为AI领域带来了技术创新,也为未来AI伦理和社会责任的讨论提供了新的视角,标志着人工智能向着更安全、可控的方向发展。
原文链接
本文链接:https://kx.umi6.com/article/5773.html
转载请注明文章出处
相关推荐
换一换
谷歌 DeepMind 发布 AlphaGenome 模型:AI 新视角探索 DNA 基因变异影响
2025-06-26 09:57:00
谷歌 DeepMind 入局“人造太阳”控制系统,AI 挑战 1 亿摄氏度高温
2025-10-17 09:11:34
谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险
2025-09-22 22:03:56
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
2024-09-03 07:29:38
谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音
2024-06-18 23:13:28
银牌组最高分,谷歌 DeepMind 捅破 AI 数学推理上限:6 道国际奥数题解出 4 道
2024-07-26 10:41:59
谷歌 DeepMind 机器人 AI 模型实现本地化运行:可完成系鞋带等高难度任务
2025-06-25 00:23:19
谷歌 DeepMind AI 模型精准预测五级飓风“梅丽莎”,超越传统气象系统
2025-11-17 15:31:02
谷歌 DeepMind 挖来波士顿动力前首席技术官,欲打造机器人界“安卓”
2025-11-20 23:47:26
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
Anthropic据悉试图挽回美军AI合作
2026-03-05 21:59:06
美国拟将AI芯片出口管制扩展至全球 英伟达、AMD等公司出口需获许可
2026-03-06 06:31:53
企业微信支持接入OpenClaw,仅需3步即可快速上手
2026-03-09 15:49:05
708 文章
511577 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18