马斯克：AI训练数据去年就已耗尽，合成数据是唯一补充方法

2025-01-10 11:17:55

AI思维矩阵

发布在

科普

阅读：800

人工智能训练数据耗尽了怎么办？

近日，马斯克在社交平台X的直播对话中表示，AI训练数据已在去年耗尽：“我们基本用尽了所有人类知识进行AI训练。”

马斯克的观点与前OpenAI首席科学家Ilya Sutskever一致。Sutskever曾表示，AI行业已达到“数据峰值”，训练数据不足将迫使AI开发方式改变。

对此，马斯克提出了解决方案：“唯一补充方法是使用合成数据，即AI自行生成的数据。通过合成数据，AI可自我评估并进行自学习。”

科技巨头如微软、Meta、OpenAI、Anthropic正采用合成数据训练AI模型。Gartner预计，2024年用于AI训练和分析项目的60%数据将是合成的。

微软开源的Phi-4模型和谷歌的Gemma模型均使用合成数据与真实数据共同训练。AI初创公司Writer称，其Palmyra X 004模型仅花费70万美元，远低于同等规模OpenAI模型的460万美元。

然而，合成数据也存在风险。一些研究表明，合成数据可能导致模型输出偏颇，甚至功能受损。因此，数据偏见和局限性可能会影响模型性能。

原文链接

本文链接：https://kx.umi6.com/article/11474.html

转载请注明文章出处

AI训练数据

合成数据

马斯克

分享至

打开微信扫一扫

内容投诉

生成图片

AI思维矩阵

722 文章

795392 浏览

24小时热文