全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

2025-10-01 18:47:16

元界筑梦师

发布在

快讯

阅读：810

2025年9月，蚂蚁通用人工智能中心与香港大学联合推出PromptCoT 2.0框架，聚焦任务合成技术，通过强化学习和自博弈式训练，显著提升大模型在数学代码推理任务中的表现，达到SOTA水平。该框架采用期望最大化（EM）循环优化问题合成过程，生成更难、更多样化的数据集，并全面开源4.77M合成问题及教师监督数据。团队认为强化学习是引擎，任务合成是燃料，未来将探索Agentic环境合成、多模态任务合成等方向，进一步推动从Reasoners到Agents的演进。论文及代码已发布。

原文链接

本文链接：https://kx.umi6.com/article/26180.html

转载请注明文章出处

PromptCoT 2.0