标题:统计可控数据合成!麦吉尔大学团队推出LLMSynthor
现有数据合成方法在合理性与分布一致性上存在不足,且扩展性差。大语言模型受限于采样效率和上下文窗口,难以直接生成大规模数据集。麦吉尔大学团队提出新方法LLMSynthor,让大模型成为结构感知的数据模拟器,为隐私敏感或数据稀缺场景生成高质量替代数据。
LLMSynthor通过“结构推理-统计对齐-生成分布-迭代对齐”四步框架,解决传统方法在高维依赖建模和泛化能力上的问题。首先,利用大语言模型模拟Copula,理解变量间依赖关系;其次,通过统计摘要衡量真实与合成数据差距,避免个体数据泄露;接着,生成可采样的分布规则而非单一样本,确保结构可信并支持多模态任务;最后,迭代优化直至生成高度接近真实数据的合成集。
该方法具备理论收敛保障,提出局部结构一致性定理,确保误差逐步收敛至可控范围。实验显示,LLMSynthor在电商交易、人口统计和城市出行等场景中表现优异,特别是在边缘与联合分布误差、政策指标预测及场景操控能力上优于现有技术。此外,LLMSynthor兼容多种大模型,具有高效性和良好扩展性。
论文链接:https://arxiv.org/pdf/2505.14752
项目地址:https://yihongt.github.io/llmsynthor_web/
原文链接
本文链接:https://kx.umi6.com/article/19201.html
转载请注明文章出处
相关推荐
.png)
换一换
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一
2025-06-12 16:35:13
茅台基金,投了“清华系”大模型企业
2025-05-25 07:56:07
Bonree ONE 2025春季版全球发布 | 云原生适配+LLM大模型接入成核心亮点!
2025-05-16 14:54:56
437 文章
76779 浏览
24小时热文
更多

-
2025-07-21 19:24:29
-
2025-07-21 19:24:17
-
2025-07-21 19:23:25