1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025年10月,OpenAI研究副总裁Jerry Tworek在播客中首次详解GPT-5的思考机制,称其更像o3.1的迭代。他指出,强化学习(RL)与预训练结合是实现通用人工智能(AGI)的关键,并强调模型推理过程类似人类思考,需平衡思考时长与用户体验。OpenAI通过o1到o3的演进,逐步提升模型能力,如工具使用和复杂任务解决。Jerry还分享了加入OpenAI的经历及公司独特的工作结构,融合自上而下与自下而上的模式推动高效创新。此外,他对DeepSeek的GRPO算法表示认可,认为其推动了美国RL研究的发展。未来,OpenAI将继续优化RL与预训练结合路径,探索更自主、更智能的AI模型。
元界筑梦师
10-20 16:09:01
GPT-5
强化学习
预训练
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025年10月20日,前特斯拉深度学习负责人Karpathy公开表示,实现通用人工智能(AGI)仍需约10年。他指出,当前AI智能水平被高估,尽管通向AGI的道路已现,但面临强化学习信号稀薄、模型崩塌、环境评估匮乏等难题。马斯克对此回应,点名Karpathy与xAI团队的Grok 5进行编程对决,但Karpathy拒绝挑战,称更愿合作。马斯克认为Grok 5实现AGI的概率仅10%,此举被解读为推动团队实现‘不可能目标’。Karpathy强调,目前处于LLM炒作的‘幻灭低谷期’,未来将是‘智能体时代’,并预测10年内生产力将稳步提升,但AGI需更多系统集成与安全突破。
E-Poet
10-20 15:08:42
AGI
Karpathy
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
卡帕西:强化学习很糟糕,但其他所有方法都更糟
卡帕西:强化学习很糟糕,但其他所有方法都更糟 近日,特斯拉前AI总监、OpenAI创始成员卡帕西在一场近两个半小时的访谈中,深入探讨了AI领域的多个关键问题,包括强化学习的局限性、通用人工智能(AGI)的未来,以及自动驾驶技术的挑战。他还分享了对未来教育的看法。 AGI还需十年 卡帕西认为,尽管像C...
数字墨迹
10-18 15:34:39
AGI
强化学习
自动驾驶
分享至
打开微信扫一扫
内容投诉
生成图片
小米最新大模型成果!罗福莉现身了
2025年10月,小米AI团队与北京大学联合发布了一篇关于MoE架构与强化学习的论文,提出了一种名为Rollout Routing Replay(R3)的新方法。R3通过复用推理阶段的路由分布,显著提升了MoE模型在强化学习中的稳定性和效率。实验显示,R3在Qwen3-30B-A3B模型上表现优异,性能提升明显且训练崩溃问题大幅减少。论文通讯作者之一为知名AI研究员罗福莉,她曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,学术引用超1.1万次。另一通讯作者为其北大导师穗志方教授。值得注意的是,罗福莉在论文中仍标注为‘独立研究者’身份,引发外界对其职业动向的关注。论文已公开于arXiv。
数据炼金师
10-17 16:21:28
小米
强化学习
罗福莉
分享至
打开微信扫一扫
内容投诉
生成图片
真正的AI竞争力,藏在大模型“后训练”这一步
真正的AI竞争力,藏在大模型“后训练”这一步 当全球目光聚焦基座模型的参数竞赛时,一场更深刻的变革正在发生——后训练(Post-Training)。产业共识是:后训练不再是简单的优化,而是AI落地的关键步骤。企业需将通用模型转化为理解业务、具备领域知识并能执行复杂策略的“专属智能引擎”。 后训练技术...
GhostPilot
10-13 16:59:55
后训练
大模型
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025年10月,GPT-5发布引发争议,因直播事故和用户吐槽被质疑能力不足,甚至引发‘AI寒冬’猜测。OpenAI首席执行官奥尔特曼回应称,问题在于用户期待错位,而非模型本身。他强调,GPT-5的升级集中在科研、数学、代码等高阶领域,普通用户难以感知其进步,如数学能力已达国际奥赛前五名。技术上,GPT-5转向基于人类反馈的强化学习(RLHF)和自采样优化,更适应专业场景但与普通人交流隔阂加深。奥尔特曼还透露,OpenAI仍在投资大规模基建,AGI不再是终点,而是持续影响力的过程。未来,GPT-6和GPT-7将带来更大突破,但当前应关注模型的实际应用价值。
数据炼金师
10-05 20:24:55
AGI
GPT-5
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025年9月,蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,聚焦任务合成技术,通过强化学习和自博弈式训练,显著提升大模型在数学代码推理任务中的表现,达到SOTA水平。该框架采用期望最大化(EM)循环优化问题合成过程,生成更难、更多样化的数据集,并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎,任务合成是燃料,未来将探索Agentic环境合成、多模态任务合成等方向,进一步推动从Reasoners到Agents的演进。论文及代码已发布。
元界筑梦师
10-01 18:47:16
PromptCoT 2.0
任务合成
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
在2025年9月28日的RL China开幕式上,伦敦大学学院汪军教授与图灵奖得主Richard Sutton展开对话,探讨强化学习与智能未来。Sutton批评当前大模型分散了对智能本质的关注,强调LLM缺乏目标和奖励机制,无法真正理解智能。他主张从经验中学习,并将目标简化为单一标量奖励信号。Sutton还提到其创立的Openmind Research Institute,旨在全球范围内推动对智能的基础研究,避免地缘政治化竞争。他认为人工智能正处于关键时代,未来十年将揭示思维运作机制,助力科学与经济发展。他呼吁年轻研究者关注长远目标,超越短期产业需求,探索更通用的智能体设计方法。
GhostPilot
09-28 11:53:51
大模型
强化学习
智能理解
分享至
打开微信扫一扫
内容投诉
生成图片
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈 视觉-语言-动作(VLA)模型是实现机器人复杂操作的关键,但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此,研究团队提出了SimpleVLA-RL框架,基于veRL扩展,通过交互式轨迹采样、结果奖励建模和探索增强等设计,...
代码编织者
09-26 11:24:15
SimpleVLA-RL
VLA模型
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
亚马逊开建AGI实验室,一号位也是华人
2024年6月,亚马逊通过反向收购雇佣Adept AI,成立AGI实验室Amazon AGI SF Lab,地点位于旧金山。实验室由华人David Luan领导,他曾是OpenAI早期员工和工程副总裁,参与GPT系列项目研发。团队还包括强化学习专家Pieter Abbeel及多名Adept AI联合创始人。实验室致力于开发基于强化学习的多模态Agent模型,首个产品Amazon Nova Act表现出色,在公开基准测试中准确率接近94%。亚马逊凭借其海量用户数据和强大算力支持,旨在打造实用性强的AGI系统,推动复杂任务自动化能力的突破。
未来笔触
09-22 09:54:37
David Luan
亚马逊AGI实验室
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序