1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

AI趋势正在“中场休息”,之前是训练>评估,未来将是评估>训练。这是OpenAI员工、姚班校友姚顺雨的观点。

AI发展分上下两阶段,上半场以模型和方法为中心,下半场重在定义有意义的任务及有效评估AI表现。这要求研究者转向更接近产品经理的方向。

转变的关键在于强化学习终于能泛化。姚顺雨在博客中详细阐述了这一观点,获得业内认可。

AI下半场是产品的游戏,重点从解决问题转向定义问题,评估比训练更重要。我们需要思考“AI该做什么”及“如何衡量进步”。

AI上半场,方法创新是主导,如Transformer、AlexNet等。那时,任务设定的技术含量较低,而方法更具通用价值。

强化学习的三大核心是算法、环境和先验知识。环境和先验对实际效果影响巨大,OpenAI最初试图将数字世界作为环境。

GPT-2/3时期,OpenAI意识到缺少先验知识,引入语言先验后,AI在聊天和网页任务中表现提升。

推理能力是影响泛化的关键,加入推理到动作空间,并结合语言预训练模型的先验,可大幅提升泛化能力。

当前评估方式有局限,需重新设计评估以贴近现实世界任务,形成正向循环。姚顺雨认为下半场将诞生价值巨大的产品和公司。

姚顺雨去年加入OpenAI,负责智能体研究。他曾提出思维树、SWE-bench、SWE-agent等成果。

原文链接
本文链接:https://kx.umi6.com/article/17349.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
2025-09-13 17:30:05
24小时热文
更多
扫一扫体验小程序