标题:“训练数据抄袭”:DeepSeek动了谁的奶酪?
正文: 有读者指出:DeepSeek V3 存在“训练数据抄袭”的问题。模型有时会产生奇怪的幻觉,如自称“GPT-4”,甚至讲的笑话也与GPT-4高度相似。这可能是训练数据受到污染所致。
大型语言模型(LLM)通过学习海量互联网文本数据(语料)进行训练。若这些数据中混入了特定模型(如GPT-4)的输出内容,新模型可能会模仿其特征,产生“幻觉”。DeepSeek V3 可能遭遇了这种情况,因互联网上有大量GPT-4生成的文本,可能无意间成为其训练数据的一部分。
除了技术问题,这还引发了行业问题:如何确定和使用AI内容的版权。现有版权法难以适用AI生成内容,其独创性在法律上仍有争议,影响传统内容创作者的利益。《纽约时报》起诉OpenAI和微软等案例反映了这种焦虑。
Scribd联合创始人Trip Adler的新项目“Created by Humans”尝试解决这一问题。该项目类似于欧美版的“视觉中国”,让创作者出售内容版权给AI公司。这通过新的商业模式平衡各方利益。尽管如此,如何将此模式扩展到多种内容类型仍需探索。
当前,AI对“语料”的使用处于无人监管的状态,内容作者缺乏话语权和议价能力,只能眼看着自己的权益受损。AI版权的边界和归属问题仍未达成共识,创作者面临严峻挑战。
原文链接
本文链接:https://kx.umi6.com/article/11003.html
转载请注明文章出处
相关推荐
换一换
K2开源大模型,会是Kimi的DeepSeek时刻吗?
2025-07-14 11:19:10
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
DeepSeek 开源新模型 V3.1:约 685B 参数,上下文长度拓展至 128K
2025-08-20 10:11:16
ColorOS 小布助手月活量达 1.5 亿,OPPO 手机(含一加)接入 DeepSeek 设备量行业第一
2025-06-10 15:49:36
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
半年不到 DeepSeek真已跌落神坛吗!我看未必 深扒背后原因
2025-07-24 13:06:29
DeepSeek:已在平台内对 AI 生成合成内容添加标识,用户不得恶意删除
2025-09-01 18:24:35
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
调查 | 爆火仅半年,DeepSeek在银行业已“泯然众模型”?三大障碍成为拦路虎
2025-08-04 11:56:14
540 文章
264805 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35