1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab

垂域模型训练中,高质量问答数据稀缺一直是行业痛点。人工标注成本高昂,合成数据又常面临质量与专业性难以兼顾的问题。

为此,上海AI实验室等提出GraphGen,通过“知识图谱引导+双模型协同”机制,显著提升垂域理解能力。研究团队已在OpenXLab部署Web应用,上传文本块(如海事、海洋知识)并填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需训练数据。

垂域模型训练中,获取问答数据面临三大挑战:量大、专业背景复杂及质量把控不足。例如,在小众领域,普通人可能难以理解专业术语。传统“LLM-RAG-打分”pipeline存在正确性和全面性问题。

GraphGen基于知识图谱引导,结合双模型协作,解决上述问题。合成模型负责构建知识图谱、生成数据,学生模型识别自身盲点以优化数据选择。最终生成的问答对可直接用于SFT训练。

研究团队对比测试显示,GraphGen在MTLD、Uni、Rew等指标上表现优异,自动合成的数据有效降低Comprehension Loss,增强垂域理解力。团队还推出Web应用,支持便捷上传文本块并生成高质量训练数据,支持本地部署及更大规模模型配置。

GitHub和论文地址:https://github.com/open-sciencelab/GraphGen
OpenXLab Web体验地址:https://g-app-center-000704-6802-aerppvq.openxlab.space

原文链接
本文链接:https://kx.umi6.com/article/17845.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
上海:在垂直领域培育一批具有市场竞争力的优质智算云企业
2025-03-26 16:03:29
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
2025-06-17 17:26:00
20K合成数据就能让大模型能力飙升!还能实现模型自我迭代,上海AI Lab数据合成新范式
2025-01-23 15:20:08
瞄准垂直领域,浩鲸科技“鲸智大模型”重磅发布
2024-10-15 18:39:58
鹅厂造10亿虚拟人格专搞数据合成:让7B模型数学成绩打平GPT4,还能给弱智吧出题
2024-07-03 03:16:13
14B小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”
2025-03-12 16:29:03
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
2025-02-26 12:28:43
YC最新路演揭示AI创业生存法则:再不垂直,就是死
2025-06-17 18:39:31
实测Manus和Lovart,谁才是Agent新王?
2025-05-17 20:11:03
导演宁浩称自己看病先问 DeepSeek,作家余华则用豆包
2025-09-04 20:07:22
AI撬动中国经济新范式
2025-09-04 21:07:55
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
24小时热文
更多
扫一扫体验小程序