
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月,OpenAI研究副总裁Jerry Tworek在播客中首次详解GPT-5的思考机制,称其更像o3.1的迭代。他指出,强化学习(RL)与预训练结合是实现通用人工智能(AGI)的关键,并强调模型推理过程类似人类思考,需平衡思考时长与用户体验。OpenAI通过o1到o3的演进,逐步提升模型能力,如工具使用和复杂任务解决。Jerry还分享了加入OpenAI的经历及公司独特的工作结构,融合自上而下与自下而上的模式推动高效创新。此外,他对DeepSeek的GRPO算法表示认可,认为其推动了美国RL研究的发展。未来,OpenAI将继续优化RL与预训练结合路径,探索更自主、更智能的AI模型。
原文链接
2025年10月20日,前特斯拉深度学习负责人Karpathy公开表示,实现通用人工智能(AGI)仍需约10年。他指出,当前AI智能水平被高估,尽管通向AGI的道路已现,但面临强化学习信号稀薄、模型崩塌、环境评估匮乏等难题。马斯克对此回应,点名Karpathy与xAI团队的Grok 5进行编程对决,但Karpathy拒绝挑战,称更愿合作。马斯克认为Grok 5实现AGI的概率仅10%,此举被解读为推动团队实现‘不可能目标’。Karpathy强调,目前处于LLM炒作的‘幻灭低谷期’,未来将是‘智能体时代’,并预测10年内生产力将稳步提升,但AGI需更多系统集成与安全突破。
原文链接
卡帕西:强化学习很糟糕,但其他所有方法都更糟
近日,特斯拉前AI总监、OpenAI创始成员卡帕西在一场近两个半小时的访谈中,深入探讨了AI领域的多个关键问题,包括强化学习的局限性、通用人工智能(AGI)的未来,以及自动驾驶技术的挑战。他还分享了对未来教育的看法。
AGI还需十年
卡帕西认为,尽管像C...
原文链接
2025年10月,小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文,提出了一种名为Rollout Routing Replay(R3)的新方法。R3通过复用推理阶段的路由分布,显著提升了MoE模型在强化学习中的稳定性和效率。实验显示,R3在Qwen3-30B-A3B模型上表现优异,性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉,她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是,罗福莉在论文中仍标注为‘独立研究者’身份,引发外界对其职业动向的关注。论文已公开于arXiv。
原文链接
真正的AI竞争力,藏在大模型“后训练”这一步
当全球目光聚焦基座模型的参数竞赛时,一场更深刻的变革正在发生——后训练(Post-Training)。产业共识是:后训练不再是简单的优化,而是AI落地的关键步骤。企业需将通用模型转化为理解业务、具备领域知识并能执行复杂策略的“专属智能引擎”。
后训练技术...
原文链接
2025年10月,GPT-5发布引发争议,因直播事故和用户吐槽被质疑能力不足,甚至引发‘AI寒冬’猜测。OpenAI首席执行官奥尔特曼回应称,问题在于用户期待错位,而非模型本身。他强调,GPT-5的升级集中在科研、数学、代码等高阶领域,普通用户难以感知其进步,如数学能力已达国际奥赛前五名。技术上,GPT-5转向基于人类反馈的强化学习(RLHF)和自采样优化,更适应专业场景但与普通人交流隔阂加深。奥尔特曼还透露,OpenAI仍在投资大规模基建,AGI不再是终点,而是持续影响力的过程。未来,GPT-6和GPT-7将带来更大突破,但当前应关注模型的实际应用价值。
原文链接
2025年9月,蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,聚焦任务合成技术,通过强化学习和自博弈式训练,显著提升大模型在数学代码推理任务中的表现,达到SOTA水平。该框架采用期望最大化(EM)循环优化问题合成过程,生成更难、更多样化的数据集,并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎,任务合成是燃料,未来将探索Agentic环境合成、多模态任务合成等方向,进一步推动从Reasoners到Agents的演进。论文及代码已发布。
原文链接
在2025年9月28日的RL China开幕式上,伦敦大学学院汪军教授与图灵奖得主Richard Sutton展开对话,探讨强化学习与智能未来。Sutton批评当前大模型分散了对智能本质的关注,强调LLM缺乏目标和奖励机制,无法真正理解智能。他主张从经验中学习,并将目标简化为单一标量奖励信号。Sutton还提到其创立的Openmind Research Institute,旨在全球范围内推动对智能的基础研究,避免地缘政治化竞争。他认为人工智能正处于关键时代,未来十年将揭示思维运作机制,助力科学与经济发展。他呼吁年轻研究者关注长远目标,超越短期产业需求,探索更通用的智能体设计方法。
原文链接
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
视觉-语言-动作(VLA)模型是实现机器人复杂操作的关键,但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此,研究团队提出了SimpleVLA-RL框架,基于veRL扩展,通过交互式轨迹采样、结果奖励建模和探索增强等设计,...
原文链接
2024年6月,亚马逊通过反向收购雇佣Adept AI,成立AGI实验室Amazon AGI SF Lab,地点位于旧金山。实验室由华人David Luan领导,他曾是OpenAI早期员工和工程副总裁,参与GPT系列项目研发。团队还包括强化学习专家Pieter Abbeel及多名Adept AI联合创始人。实验室致力于开发基于强化学习的多模态Agent模型,首个产品Amazon Nova Act表现出色,在公开基准测试中准确率接近94%。亚马逊凭借其海量用户数据和强大算力支持,旨在打造实用性强的AGI系统,推动复杂任务自动化能力的突破。
原文链接
加载更多

暂无内容