强化学习 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5≈o3.1！OpenAI首次详解思考机制：RL+预训练才是AGI正道

2025年10月，OpenAI研究副总裁Jerry Tworek在播客中首次详解GPT-5的思考机制，称其更像o3.1的迭代。他指出，强化学习（RL）与预训练结合是实现通用人工智能（AGI）的关键，并强调模型推理过程类似人类思考，需平衡思考时长与用户体验。OpenAI通过o1到o3的演进，逐步提升模型能力，如工具使用和复杂任务解决。Jerry还分享了加入OpenAI的经历及公司独特的工作结构，融合自上而下与自下而上的模式推动高效创新。此外，他对DeepSeek的GRPO算法表示认可，认为其推动了美国RL研究的发展。未来，OpenAI将继续优化RL与预训练结合路径，探索更自主、更智能的AI模型。

原文链接

元界筑梦师

10-20 16:09:01

GPT-5

强化学习

预训练

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克亲自点名Karpathy迎战Grok 5！别神话LLM，AGI还要等十年

2025年10月20日，前特斯拉深度学习负责人Karpathy公开表示，实现通用人工智能（AGI）仍需约10年。他指出，当前AI智能水平被高估，尽管通向AGI的道路已现，但面临强化学习信号稀薄、模型崩塌、环境评估匮乏等难题。马斯克对此回应，点名Karpathy与xAI团队的Grok 5进行编程对决，但Karpathy拒绝挑战，称更愿合作。马斯克认为Grok 5实现AGI的概率仅10%，此举被解读为推动团队实现‘不可能目标’。Karpathy强调，目前处于LLM炒作的‘幻灭低谷期’，未来将是‘智能体时代’，并预测10年内生产力将稳步提升，但AGI需更多系统集成与安全突破。

原文链接

E-Poet

10-20 15:08:42

AGI

Karpathy

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

卡帕西：强化学习很糟糕，但其他所有方法都更糟

卡帕西：强化学习很糟糕，但其他所有方法都更糟近日，特斯拉前AI总监、OpenAI创始成员卡帕西在一场近两个半小时的访谈中，深入探讨了AI领域的多个关键问题，包括强化学习的局限性、通用人工智能（AGI）的未来，以及自动驾驶技术的挑战。他还分享了对未来教育的看法。 AGI还需十年卡帕西认为，尽管像C...

原文链接

数字墨迹

10-18 15:34:39

AGI

强化学习

自动驾驶

分享至

打开微信扫一扫

内容投诉

生成图片

小米最新大模型成果！罗福莉现身了

2025年10月，小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文，提出了一种名为Rollout Routing Replay（R3）的新方法。R3通过复用推理阶段的路由分布，显著提升了MoE模型在强化学习中的稳定性和效率。实验显示，R3在Qwen3-30B-A3B模型上表现优异，性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉，她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化，学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是，罗福莉在论文中仍标注为‘独立研究者’身份，引发外界对其职业动向的关注。论文已公开于arXiv。

原文链接

数据炼金师

10-17 16:21:28

小米

强化学习

罗福莉

分享至

打开微信扫一扫

内容投诉

生成图片

真正的AI竞争力，藏在大模型“后训练”这一步

真正的AI竞争力，藏在大模型“后训练”这一步当全球目光聚焦基座模型的参数竞赛时，一场更深刻的变革正在发生——后训练（Post-Training）。产业共识是：后训练不再是简单的优化，而是AI落地的关键步骤。企业需将通用模型转化为理解业务、具备领域知识并能执行复杂策略的“专属智能引擎”。后训练技术...

原文链接

GhostPilot

10-13 16:59:55

后训练

大模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

奥尔特曼：感受不到 GPT-5 变强，是因为你还不够「专业」

2025年10月，GPT-5发布引发争议，因直播事故和用户吐槽被质疑能力不足，甚至引发‘AI寒冬’猜测。OpenAI首席执行官奥尔特曼回应称，问题在于用户期待错位，而非模型本身。他强调，GPT-5的升级集中在科研、数学、代码等高阶领域，普通用户难以感知其进步，如数学能力已达国际奥赛前五名。技术上，GPT-5转向基于人类反馈的强化学习（RLHF）和自采样优化，更适应专业场景但与普通人交流隔阂加深。奥尔特曼还透露，OpenAI仍在投资大规模基建，AGI不再是终点，而是持续影响力的过程。未来，GPT-6和GPT-7将带来更大突破，但当前应关注模型的实际应用价值。

原文链接

数据炼金师

10-05 20:24:55

AGI

GPT-5

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

2025年9月，蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架，聚焦任务合成技术，通过强化学习和自博弈式训练，显著提升大模型在数学代码推理任务中的表现，达到SOTA水平。该框架采用期望最大化（EM）循环优化问题合成过程，生成更难、更多样化的数据集，并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎，任务合成是燃料，未来将探索Agentic环境合成、多模态任务合成等方向，进一步推动从Reasoners到Agents的演进。论文及代码已发布。

原文链接

元界筑梦师

10-01 18:47:16

PromptCoT 2.0

任务合成

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

汪军对话 Rich Sutton：大模型在一定程度上分散了我们对智能理解的注意力

在2025年9月28日的RL China开幕式上，伦敦大学学院汪军教授与图灵奖得主Richard Sutton展开对话，探讨强化学习与智能未来。Sutton批评当前大模型分散了对智能本质的关注，强调LLM缺乏目标和奖励机制，无法真正理解智能。他主张从经验中学习，并将目标简化为单一标量奖励信号。Sutton还提到其创立的Openmind Research Institute，旨在全球范围内推动对智能的基础研究，避免地缘政治化竞争。他认为人工智能正处于关键时代，未来十年将揭示思维运作机制，助力科学与经济发展。他呼吁年轻研究者关注长远目标，超越短期产业需求，探索更通用的智能体设计方法。

原文链接

GhostPilot

09-28 11:53:51

大模型

强化学习

智能理解

分享至

打开微信扫一扫

内容投诉

生成图片

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈视觉-语言-动作（VLA）模型是实现机器人复杂操作的关键，但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此，研究团队提出了SimpleVLA-RL框架，基于veRL扩展，通过交互式轨迹采样、结果奖励建模和探索增强等设计，...

原文链接

代码编织者

09-26 11:24:15

SimpleVLA-RL

VLA模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

亚马逊开建AGI实验室，一号位也是华人

2024年6月，亚马逊通过反向收购雇佣Adept AI，成立AGI实验室Amazon AGI SF Lab，地点位于旧金山。实验室由华人David Luan领导，他曾是OpenAI早期员工和工程副总裁，参与GPT系列项目研发。团队还包括强化学习专家Pieter Abbeel及多名Adept AI联合创始人。实验室致力于开发基于强化学习的多模态Agent模型，首个产品Amazon Nova Act表现出色，在公开基准测试中准确率接近94%。亚马逊凭借其海量用户数据和强大算力支持，旨在打造实用性强的AGI系统，推动复杂任务自动化能力的突破。

原文链接