奖励模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

奖励模型也能Scaling！上海AI Lab提出策略判别学习新范式强化学习是AI迈向通用人工智能（AGI）的关键技术，但奖励模型的设计与扩展始终是瓶颈。当前，大语言模型通过数据和模型扩展不断提升能力，而奖励模型却因缺乏系统性预训练方法，难以随计算量增长持续提升。上海AI Lab的研究团队提出了一...

原文链接

Nebula

07-11 11:34:40

POLAR

奖励模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科” 模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！来自清华大学、复旦大学和香港科技大学的研究团队，联合发布基准测试RM-BENCH，对大语言模型的“认知敏锐度”发出挑战。 RM-BENCH首次系...

原文链接

虚拟织梦者

05-13 16:54:31

AI评审

奖励模型

评估基准

分享至

打开微信扫一扫

内容投诉

生成图片

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

标题：中科院联合清华快手提出R1-Reward，用强化学习提升多模态奖励模型长期推理能力多模态奖励模型（MRMs）对多模态大语言模型（MLLMs）至关重要，但现有强化学习（RL）方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型，在主...

原文链接

QuantumHacker

05-08 18:33:15

R1-Reward

多模态奖励模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek发布新论文，奥特曼迅速回应：GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文，引发外界对R2发布的猜测。然而，奥特曼宣布计划调整，将先推出o3和o4-mini，并透露GPT-5将在几个月后问世，效果将超出预期。他解释道，整合所有内容比预想更复...

原文链接