任务合成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

2025年9月，蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架，聚焦任务合成技术，通过强化学习和自博弈式训练，显著提升大模型在数学代码推理任务中的表现，达到SOTA水平。该框架采用期望最大化（EM）循环优化问题合成过程，生成更难、更多样化的数据集，并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎，任务合成是燃料，未来将探索Agentic环境合成、多模态任务合成等方向，进一步推动从Reasoners到Agents的演进。论文及代码已发布。

原文链接