1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月,蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架,聚焦任务合成技术,通过强化学习和自博弈式训练,显著提升大模型在数学代码推理任务中的表现,达到SOTA水平。该框架采用期望最大化(EM)循环优化问题合成过程,生成更难、更多样化的数据集,并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎,任务合成是燃料,未来将探索Agentic环境合成、多模态任务合成等方向,进一步推动从Reasoners到Agents的演进。论文及代码已发布。

原文链接
本文链接:https://kx.umi6.com/article/26180.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
波士顿动力 Spot 四足机器人学会连续后空翻,意外让行走姿态更像真实动物
2025-08-28 10:20:06
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
2025-03-20 19:41:21
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
我不给人做产品,给Agent做
2025-06-30 08:39:41
24小时热文
更多
扫一扫体验小程序