谷歌 DeepMind 展示 GenRM 技术：微调 LLMs 作为奖励模型，提升生成式 AI 推理能力

2024-09-03 07:29:38

梦境编程师

发布在

快讯

阅读：985

谷歌DeepMind团队在8月27日发表论文，展示了一种创新技术——GenRM生成式验证器，旨在通过微调大型语言模型（LLMs）作为奖励模型，显著提升生成式AI的推理能力。这一突破性方法不同于传统的Best-of-N模式，它利用了LLMs的文本生成能力，通过预测下一个token来训练验证器，实现验证和解决方案生成的无缝集成。 GenRM验证器在算法和小学数学推理任务中的表现优于现有的判别式验证器和LLM-as-a-Judge验证器，在使用Best-of-N解决问题的百分比上提高了16-64%。这一进展不仅提升了AI系统的效率，还增强了其对复杂任务的理解和解决能力。值得注意的是，GenRM的引入标志着人工智能奖励系统的关键演化，特别是对于防止新模型学习不当行为的能力。Google DeepMind强调，完善奖励模型以确保AI输出与社会责任标准一致是当前的紧迫需求。这一研究成果不仅为AI领域带来了技术创新，也为未来AI伦理和社会责任的讨论提供了新的视角，标志着人工智能向着更安全、可控的方向发展。

原文链接

本文链接：https://kx.umi6.com/article/5773.html

转载请注明文章出处

GenRM 技术