
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式
强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。
上海AI Lab的研究团队提出了一...
原文链接
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
模型胡乱论证“1+1=3”,评测系统却浑然不觉甚至疯狂打Call?是时候给奖励模型打个分了!
来自清华大学、复旦大学和香港科技大学的研究团队,联合发布基准测试RM-BENCH,对大语言模型的“认知敏锐度”发出挑战。
RM-BENCH首次系...
原文链接
标题:中科院联合清华快手提出R1-Reward,用强化学习提升多模态奖励模型长期推理能力
多模态奖励模型(MRMs)对多模态大语言模型(MLLMs)至关重要,但现有强化学习(RL)方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型,在主...
原文链接
DeepSeek发布新论文,奥特曼迅速回应:GPT-5预计数月内推出。DeepSeek刚发布一篇关于推理时Scaling Law的论文,引发外界对R2发布的猜测。然而,奥特曼宣布计划调整,将先推出o3和o4-mini,并透露GPT-5将在几个月后问世,效果将超出预期。他解释道,整合所有内容比预想更复...
原文链接
标题:7B奖励模型搞定多学科,大模型强化学习不再局限于数学和代码
一个7B奖励模型搞定全学科,大模型强化学习突破数学和代码领域限制。现有方法如o1/r1主要聚焦数学和代码,因其数据结构化程度高,奖励函数易设计。然而,对于医学、化学、法律等非结构化领域,如何提升大模型能力成为关键。
腾讯与苏州大学...
原文链接
加载更多

暂无内容