1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谷歌DeepMind团队在8月27日发表论文,展示了一种创新技术——GenRM生成式验证器,旨在通过微调大型语言模型(LLMs)作为奖励模型,显著提升生成式AI的推理能力。这一突破性方法不同于传统的Best-of-N模式,它利用了LLMs的文本生成能力,通过预测下一个token来训练验证器,实现验证和解决方案生成的无缝集成。 GenRM验证器在算法和小学数学推理任务中的表现优于现有的判别式验证器和LLM-as-a-Judge验证器,在使用Best-of-N解决问题的百分比上提高了16-64%。这一进展不仅提升了AI系统的效率,还增强了其对复杂任务的理解和解决能力。 值得注意的是,GenRM的引入标志着人工智能奖励系统的关键演化,特别是对于防止新模型学习不当行为的能力。Google DeepMind强调,完善奖励模型以确保AI输出与社会责任标准一致是当前的紧迫需求。 这一研究成果不仅为AI领域带来了技术创新,也为未来AI伦理和社会责任的讨论提供了新的视角,标志着人工智能向着更安全、可控的方向发展。

原文链接
本文链接:https://kx.umi6.com/article/5773.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌 DeepMind 新研究:利用 AI 模型为无声视频配音
2024-06-18 23:13:28
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
2024-09-03 07:29:38
谷歌 DeepMind 机器人 AI 模型实现本地化运行:可完成系鞋带等高难度任务
2025-06-25 00:23:19
24小时热文
更多
扫一扫体验小程序