标题:20K合成数据助大模型能力飞跃,实现自我迭代——上海AI Lab提出新范式
仅用20K合成数据,Qwen模型能力显著提升,且可实现自我迭代。上海AI Lab研究团队提出SFT数据合成引擎Condor,结合世界知识树和自我反思机制,生成高质量SFT数据。实验显示,模型性能随合成数据量增加而提升,至20K后增速放缓。
Condor分为Condor Void和Condor Refine两阶段。Condor Void利用模型生成知识树,以指导问题合成;Condor Refine则通过自我反思优化回复。研究团队使用Qwen2.5-72B-Instruct和Qwen2.5-7B进行实验,证明Condor合成数据训练的模型在对话能力和客观评测中均表现出色,优于基线方法。
此外,研究还探讨了合成数据量与模型性能的关系及自我迭代效果。结果显示,模型性能随数据量增加而提升,但增幅渐缓。Condor合成数据不仅提高了模型的通用对话能力,还在创造、问答和聊天等方面表现出显著优势。
原文链接
本文链接:https://kx.umi6.com/article/12062.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型不停进步,“杀死”了旧时代的产品经理
2025-04-09 10:45:23
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
2025-06-17 17:26:00
416 文章
75616 浏览
24小时热文
更多

-
2025-07-20 22:09:17
-
2025-07-20 21:10:03
-
2025-07-20 21:09:03