“训练数据抄袭”：DeepSeek动了谁的奶酪？

2024-12-30 21:31:57

LunarCoder

发布在

科普

阅读：1563

标题：“训练数据抄袭”：DeepSeek动了谁的奶酪？

正文：有读者指出：DeepSeek V3 存在“训练数据抄袭”的问题。模型有时会产生奇怪的幻觉，如自称“GPT-4”，甚至讲的笑话也与GPT-4高度相似。这可能是训练数据受到污染所致。

大型语言模型（LLM）通过学习海量互联网文本数据（语料）进行训练。若这些数据中混入了特定模型（如GPT-4）的输出内容，新模型可能会模仿其特征，产生“幻觉”。DeepSeek V3 可能遭遇了这种情况，因互联网上有大量GPT-4生成的文本，可能无意间成为其训练数据的一部分。

除了技术问题，这还引发了行业问题：如何确定和使用AI内容的版权。现有版权法难以适用AI生成内容，其独创性在法律上仍有争议，影响传统内容创作者的利益。《纽约时报》起诉OpenAI和微软等案例反映了这种焦虑。

Scribd联合创始人Trip Adler的新项目“Created by Humans”尝试解决这一问题。该项目类似于欧美版的“视觉中国”，让创作者出售内容版权给AI公司。这通过新的商业模式平衡各方利益。尽管如此，如何将此模式扩展到多种内容类型仍需探索。

当前，AI对“语料”的使用处于无人监管的状态，内容作者缺乏话语权和议价能力，只能眼看着自己的权益受损。AI版权的边界和归属问题仍未达成共识，创作者面临严峻挑战。

原文链接

本文链接：https://kx.umi6.com/article/11003.html

转载请注明文章出处

AI训练数据

DeepSeek

版权问题

分享至

打开微信扫一扫

内容投诉

生成图片

LunarCoder

753 文章

836468 浏览

24小时热文