AI趋势正在“中场休息”,之前是训练>评估,未来将是评估>训练。这是OpenAI员工、姚班校友姚顺雨的观点。
AI发展分上下两阶段,上半场以模型和方法为中心,下半场重在定义有意义的任务及有效评估AI表现。这要求研究者转向更接近产品经理的方向。
转变的关键在于强化学习终于能泛化。姚顺雨在博客中详细阐述了这一观点,获得业内认可。
AI下半场是产品的游戏,重点从解决问题转向定义问题,评估比训练更重要。我们需要思考“AI该做什么”及“如何衡量进步”。
AI上半场,方法创新是主导,如Transformer、AlexNet等。那时,任务设定的技术含量较低,而方法更具通用价值。
强化学习的三大核心是算法、环境和先验知识。环境和先验对实际效果影响巨大,OpenAI最初试图将数字世界作为环境。
GPT-2/3时期,OpenAI意识到缺少先验知识,引入语言先验后,AI在聊天和网页任务中表现提升。
推理能力是影响泛化的关键,加入推理到动作空间,并结合语言预训练模型的先验,可大幅提升泛化能力。
当前评估方式有局限,需重新设计评估以贴近现实世界任务,形成正向循环。姚顺雨认为下半场将诞生价值巨大的产品和公司。
姚顺雨去年加入OpenAI,负责智能体研究。他曾提出思维树、SWE-bench、SWE-agent等成果。
原文链接
本文链接:https://kx.umi6.com/article/17349.html
转载请注明文章出处
相关推荐
换一换
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
746 文章
599058 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33