开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
垂域模型训练中,高质量问答数据稀缺一直是行业痛点。人工标注成本高昂,合成数据又常面临质量与专业性难以兼顾的问题。
为此,上海AI实验室等提出GraphGen,通过“知识图谱引导+双模型协同”机制,显著提升垂域理解能力。研究团队已在OpenXLab部署Web应用,上传文本块(如海事、海洋知识)并填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需训练数据。
垂域模型训练中,获取问答数据面临三大挑战:量大、专业背景复杂及质量把控不足。例如,在小众领域,普通人可能难以理解专业术语。传统“LLM-RAG-打分”pipeline存在正确性和全面性问题。
GraphGen基于知识图谱引导,结合双模型协作,解决上述问题。合成模型负责构建知识图谱、生成数据,学生模型识别自身盲点以优化数据选择。最终生成的问答对可直接用于SFT训练。
研究团队对比测试显示,GraphGen在MTLD、Uni、Rew等指标上表现优异,自动合成的数据有效降低Comprehension Loss,增强垂域理解力。团队还推出Web应用,支持便捷上传文本块并生成高质量训练数据,支持本地部署及更大规模模型配置。
GitHub和论文地址:https://github.com/open-sciencelab/GraphGen
OpenXLab Web体验地址:https://g-app-center-000704-6802-aerppvq.openxlab.space
原文链接
本文链接:https://kx.umi6.com/article/17845.html
转载请注明文章出处
相关推荐
.png)
换一换
YC最新路演揭示AI创业生存法则:再不垂直,就是死
2025-06-17 18:39:31
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
2025-02-26 12:28:43
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
453 文章
84053 浏览
24小时热文
更多

-
2025-07-20 22:09:17
-
2025-07-20 21:10:03
-
2025-07-20 21:09:03