标题:20K合成数据助大模型能力飞跃,实现自我迭代——上海AI Lab提出新范式
仅用20K合成数据,Qwen模型能力显著提升,且可实现自我迭代。上海AI Lab研究团队提出SFT数据合成引擎Condor,结合世界知识树和自我反思机制,生成高质量SFT数据。实验显示,模型性能随合成数据量增加而提升,至20K后增速放缓。
Condor分为Condor Void和Condor Refine两阶段。Condor Void利用模型生成知识树,以指导问题合成;Condor Refine则通过自我反思优化回复。研究团队使用Qwen2.5-72B-Instruct和Qwen2.5-7B进行实验,证明Condor合成数据训练的模型在对话能力和客观评测中均表现出色,优于基线方法。
此外,研究还探讨了合成数据量与模型性能的关系及自我迭代效果。结果显示,模型性能随数据量增加而提升,但增幅渐缓。Condor合成数据不仅提高了模型的通用对话能力,还在创造、问答和聊天等方面表现出显著优势。
原文链接
本文链接:https://kx.umi6.com/article/12062.html
转载请注明文章出处
相关推荐
换一换
20K合成数据就能让大模型能力飙升!还能实现模型自我迭代,上海AI Lab数据合成新范式
2025-01-23 15:20:08
阿里吴泳铭:AGI只是起点 终极目标是超级人工智能
2025-09-24 10:36:41
大模型不停进步,“杀死”了旧时代的产品经理
2025-04-09 10:45:23
鹅厂造10亿虚拟人格专搞数据合成:让7B模型数学成绩打平GPT4,还能给弱智吧出题
2024-07-03 03:16:13
「期货大王」OpenAI,正在被全面超越?
2024-06-21 20:44:31
全栈AI基础设施支撑,跑出全球首个开放使用视频生成DiT模型
2025-04-28 11:46:30
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
2025-06-17 17:26:00
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
2025-02-26 12:28:43
快手可灵 O1 主体库上线:只要有多角度参考图就能让 AI“记住”主角
2025-12-06 21:53:19
美团发布并开源 LongCat-Image 图像生成模型,编辑能力登顶开源 SOTA
2025-12-08 10:19:43
微软终于听劝一次!Windows 11右键菜单AI操作可彻底移除
2025-12-08 12:28:38
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
550 文章
330762 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57