谷歌DeepMind团队在8月27日发表论文,展示了一种创新技术——GenRM生成式验证器,旨在通过微调大型语言模型(LLMs)作为奖励模型,显著提升生成式AI的推理能力。这一突破性方法不同于传统的Best-of-N模式,它利用了LLMs的文本生成能力,通过预测下一个token来训练验证器,实现验证和解决方案生成的无缝集成。 GenRM验证器在算法和小学数学推理任务中的表现优于现有的判别式验证器和LLM-as-a-Judge验证器,在使用Best-of-N解决问题的百分比上提高了16-64%。这一进展不仅提升了AI系统的效率,还增强了其对复杂任务的理解和解决能力。 值得注意的是,GenRM的引入标志着人工智能奖励系统的关键演化,特别是对于防止新模型学习不当行为的能力。Google DeepMind强调,完善奖励模型以确保AI输出与社会责任标准一致是当前的紧迫需求。 这一研究成果不仅为AI领域带来了技术创新,也为未来AI伦理和社会责任的讨论提供了新的视角,标志着人工智能向着更安全、可控的方向发展。
原文链接
本文链接:https://kx.umi6.com/article/5773.html
转载请注明文章出处
相关推荐
换一换
银牌组最高分,谷歌 DeepMind 捅破 AI 数学推理上限:6 道国际奥数题解出 4 道
2024-07-26 10:41:59
谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险
2025-09-22 22:03:56
谷歌 DeepMind 机器人 AI 模型实现本地化运行:可完成系鞋带等高难度任务
2025-06-25 00:23:19
谷歌 DeepMind 入局“人造太阳”控制系统,AI 挑战 1 亿摄氏度高温
2025-10-17 09:11:34
谷歌 DeepMind AI 模型精准预测五级飓风“梅丽莎”,超越传统气象系统
2025-11-17 15:31:02
谷歌 DeepMind 挖来波士顿动力前首席技术官,欲打造机器人界“安卓”
2025-11-20 23:47:26
谷歌 DeepMind 发布 AlphaGenome 模型:AI 新视角探索 DNA 基因变异影响
2025-06-26 09:57:00
谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音
2024-06-18 23:13:28
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
2024-09-03 07:29:38
2025 日本国际机器人展闭幕,中国企业占据人形机器人半壁江山
2025-12-07 22:51:22
重庆“十五五”规划建议:支持领军企业牵头组建“人工智能+汽车”生态联盟 布局超快充、换电站、加氢站等设施网络
2025-12-08 08:16:57
中国电信董事长柯瑞文:加快推进算力基础设施建设 强化国产算力芯片适配
2025-12-07 21:52:07
美团发布并开源 LongCat-Image 图像生成模型,编辑能力登顶开源 SOTA
2025-12-08 10:19:43
635 文章
384559 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52