1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:20K合成数据助大模型能力飞跃,实现自我迭代——上海AI Lab提出新范式

仅用20K合成数据,Qwen模型能力显著提升,且可实现自我迭代。上海AI Lab研究团队提出SFT数据合成引擎Condor,结合世界知识树和自我反思机制,生成高质量SFT数据。实验显示,模型性能随合成数据量增加而提升,至20K后增速放缓。

Condor分为Condor Void和Condor Refine两阶段。Condor Void利用模型生成知识树,以指导问题合成;Condor Refine则通过自我反思优化回复。研究团队使用Qwen2.5-72B-Instruct和Qwen2.5-7B进行实验,证明Condor合成数据训练的模型在对话能力和客观评测中均表现出色,优于基线方法。

此外,研究还探讨了合成数据量与模型性能的关系及自我迭代效果。结果显示,模型性能随数据量增加而提升,但增幅渐缓。Condor合成数据不仅提高了模型的通用对话能力,还在创造、问答和聊天等方面表现出显著优势。

原文链接
本文链接:https://kx.umi6.com/article/12062.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
「期货大王」OpenAI,正在被全面超越?
2024-06-21 20:44:31
大模型不停进步,“杀死”了旧时代的产品经理
2025-04-09 10:45:23
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
2025-02-26 12:28:43
鹅厂造10亿虚拟人格专搞数据合成:让7B模型数学成绩打平GPT4,还能给弱智吧出题
2024-07-03 03:16:13
阿里吴泳铭:AGI只是起点 终极目标是超级人工智能
2025-09-24 10:36:41
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
2025-06-17 17:26:00
20K合成数据就能让大模型能力飙升!还能实现模型自我迭代,上海AI Lab数据合成新范式
2025-01-23 15:20:08
全栈AI基础设施支撑,跑出全球首个开放使用视频生成DiT模型
2025-04-28 11:46:30
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
荣耀推出 AI Connect 平台,发布八大 AI 场景化生态解决方案
2025-10-23 17:12:06
字节跳动 Seed3D 1.0 发布:一张图就能生成高精度 3D 模型
2025-10-23 14:05:22
Mobileye连续三个季度营收同比增长,EyeQ芯片出货量持续增长
2025-10-24 11:32:17
24小时热文
更多
扫一扫体验小程序