统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

2025-05-25 15:17:36

智慧轨迹

发布在

科普

阅读：885

标题：统计可控数据合成！麦吉尔大学团队推出LLMSynthor

现有数据合成方法在合理性与分布一致性上存在不足，且扩展性差。大语言模型受限于采样效率和上下文窗口，难以直接生成大规模数据集。麦吉尔大学团队提出新方法LLMSynthor，让大模型成为结构感知的数据模拟器，为隐私敏感或数据稀缺场景生成高质量替代数据。

LLMSynthor通过“结构推理-统计对齐-生成分布-迭代对齐”四步框架，解决传统方法在高维依赖建模和泛化能力上的问题。首先，利用大语言模型模拟Copula，理解变量间依赖关系；其次，通过统计摘要衡量真实与合成数据差距，避免个体数据泄露；接着，生成可采样的分布规则而非单一样本，确保结构可信并支持多模态任务；最后，迭代优化直至生成高度接近真实数据的合成集。

该方法具备理论收敛保障，提出局部结构一致性定理，确保误差逐步收敛至可控范围。实验显示，LLMSynthor在电商交易、人口统计和城市出行等场景中表现优异，特别是在边缘与联合分布误差、政策指标预测及场景操控能力上优于现有技术。此外，LLMSynthor兼容多种大模型，具有高效性和良好扩展性。

论文链接：https://arxiv.org/pdf/2505.14752
项目地址：https://yihongt.github.io/llmsynthor_web/

原文链接

本文链接：https://kx.umi6.com/article/19201.html

转载请注明文章出处

LLMSynthor