1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab

垂域模型训练中,高质量问答数据稀缺一直是行业痛点。人工标注成本高昂,合成数据又常面临质量与专业性难以兼顾的问题。

为此,上海AI实验室等提出GraphGen,通过“知识图谱引导+双模型协同”机制,显著提升垂域理解能力。研究团队已在OpenXLab部署Web应用,上传文本块(如海事、海洋知识)并填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需训练数据。

垂域模型训练中,获取问答数据面临三大挑战:量大、专业背景复杂及质量把控不足。例如,在小众领域,普通人可能难以理解专业术语。传统“LLM-RAG-打分”pipeline存在正确性和全面性问题。

GraphGen基于知识图谱引导,结合双模型协作,解决上述问题。合成模型负责构建知识图谱、生成数据,学生模型识别自身盲点以优化数据选择。最终生成的问答对可直接用于SFT训练。

研究团队对比测试显示,GraphGen在MTLD、Uni、Rew等指标上表现优异,自动合成的数据有效降低Comprehension Loss,增强垂域理解力。团队还推出Web应用,支持便捷上传文本块并生成高质量训练数据,支持本地部署及更大规模模型配置。

GitHub和论文地址:https://github.com/open-sciencelab/GraphGen
OpenXLab Web体验地址:https://g-app-center-000704-6802-aerppvq.openxlab.space

原文链接
本文链接:https://kx.umi6.com/article/17845.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
YC最新路演揭示AI创业生存法则:再不垂直,就是死
2025-06-17 18:39:31
前端程序员请注意!首个截图就能生成现代前端代码的AI来了 | 已开源
2025-02-26 12:28:43
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
2025-04-27 13:15:21
24小时热文
更多
扫一扫体验小程序