2025年9月,蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,聚焦任务合成技术,通过强化学习和自博弈式训练,显著提升大模型在数学代码推理任务中的表现,达到SOTA水平。该框架采用期望最大化(EM)循环优化问题合成过程,生成更难、更多样化的数据集,并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎,任务合成是燃料,未来将探索Agentic环境合成、多模态任务合成等方向,进一步推动从Reasoners到Agents的演进。论文及代码已发布。
原文链接
本文链接:https://kx.umi6.com/article/26180.html
转载请注明文章出处
相关推荐
换一换
姚班学霸、OpenAI姚顺雨:大模型下半场是产品的游戏
2025-04-17 17:47:23
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
2025-09-13 17:30:05
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
626 文章
438646 浏览
24小时热文
更多
-
2026-01-24 01:23:32 -
2026-01-24 00:23:19 -
2026-01-23 22:19:57