标题:“训练数据抄袭”:DeepSeek动了谁的奶酪?
正文: 有读者指出:DeepSeek V3 存在“训练数据抄袭”的问题。模型有时会产生奇怪的幻觉,如自称“GPT-4”,甚至讲的笑话也与GPT-4高度相似。这可能是训练数据受到污染所致。
大型语言模型(LLM)通过学习海量互联网文本数据(语料)进行训练。若这些数据中混入了特定模型(如GPT-4)的输出内容,新模型可能会模仿其特征,产生“幻觉”。DeepSeek V3 可能遭遇了这种情况,因互联网上有大量GPT-4生成的文本,可能无意间成为其训练数据的一部分。
除了技术问题,这还引发了行业问题:如何确定和使用AI内容的版权。现有版权法难以适用AI生成内容,其独创性在法律上仍有争议,影响传统内容创作者的利益。《纽约时报》起诉OpenAI和微软等案例反映了这种焦虑。
Scribd联合创始人Trip Adler的新项目“Created by Humans”尝试解决这一问题。该项目类似于欧美版的“视觉中国”,让创作者出售内容版权给AI公司。这通过新的商业模式平衡各方利益。尽管如此,如何将此模式扩展到多种内容类型仍需探索。
当前,AI对“语料”的使用处于无人监管的状态,内容作者缺乏话语权和议价能力,只能眼看着自己的权益受损。AI版权的边界和归属问题仍未达成共识,创作者面临严峻挑战。
原文链接
本文链接:https://kx.umi6.com/article/11003.html
转载请注明文章出处
相关推荐
换一换
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI
2026-05-23 18:53:19
DeepSeek急招Agent方向!一口气放17个岗位,重度Vibe Coding优先
2026-03-25 15:37:07
DeepSeek网页、APP服务出现重大中断
2026-03-30 08:41:20
微软研报称 DeepSeek 在中国 AI 市场份额达 89%,在白俄罗斯达 56%
2026-01-13 16:44:20
DeepSeek专家模式无法上传文件 官方提示:目前资源紧张
2026-05-14 16:48:15
迪士尼环球华纳齐告MiniMax,AI版权问题又添新官司
2025-09-18 08:49:51
大厂抢郭达雅进行时!DeepSeek核心成员还是个“综艺巨佬”
2026-03-22 15:52:37
DeepSeek据悉拟募资最高500亿元人民币
2026-05-08 21:41:39
MAU被豆包反超,Deepseek挤了点牙膏
2025-10-21 15:28:27
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳
2026-05-21 18:58:24
737 文章
672558 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41