Meta的Llama 3是合成数据训练？数据荒了解一下

2024-08-05 09:02:16

Oasis

发布在

快讯

阅读：989

Meta的AI研究员Thomas Scialom博士揭示，其公司的大模型Llama 3在训练过程中完全依赖于由Llama 2生成的合成数据，而非人类编写的内容。这一发现标志着合成数据在AI训练中的可行性得到了肯定。合成数据通过算法模仿真实数据特性产生，使得大模型在代码执行反馈、编程语言翻译、长文本问答等多个领域得以应用。Llama 3的规模超过4000亿参数，训练数据量是前代Llama 2的七倍，显示出合成数据的强大潜力。合成数据的制作涉及将人类语言转化为计算机可理解的形式，通过定义任务和设计特定提示，指导大语言模型生成所需数据。此过程中，重要的是确保模型能够生成和评估新指令，并将其添加至训练集。合成数据的优点在于能够以较低成本模拟真实数据属性，减少人为误差。然而，尽管合成数据成本低廉，但在某些情况下，真实数据仍因其能揭示新领域和避免模型偏见而更受欢迎。Meta的尝试显示了合成数据在AI训练中的潜在价值，但其实际成本和效果仍需进一步研究。

原文链接

本文链接：https://kx.umi6.com/article/4529.html

转载请注明文章出处

AI伦理