标题:“训练数据抄袭”:DeepSeek动了谁的奶酪?
正文: 有读者指出:DeepSeek V3 存在“训练数据抄袭”的问题。模型有时会产生奇怪的幻觉,如自称“GPT-4”,甚至讲的笑话也与GPT-4高度相似。这可能是训练数据受到污染所致。
大型语言模型(LLM)通过学习海量互联网文本数据(语料)进行训练。若这些数据中混入了特定模型(如GPT-4)的输出内容,新模型可能会模仿其特征,产生“幻觉”。DeepSeek V3 可能遭遇了这种情况,因互联网上有大量GPT-4生成的文本,可能无意间成为其训练数据的一部分。
除了技术问题,这还引发了行业问题:如何确定和使用AI内容的版权。现有版权法难以适用AI生成内容,其独创性在法律上仍有争议,影响传统内容创作者的利益。《纽约时报》起诉OpenAI和微软等案例反映了这种焦虑。
Scribd联合创始人Trip Adler的新项目“Created by Humans”尝试解决这一问题。该项目类似于欧美版的“视觉中国”,让创作者出售内容版权给AI公司。这通过新的商业模式平衡各方利益。尽管如此,如何将此模式扩展到多种内容类型仍需探索。
当前,AI对“语料”的使用处于无人监管的状态,内容作者缺乏话语权和议价能力,只能眼看着自己的权益受损。AI版权的边界和归属问题仍未达成共识,创作者面临严峻挑战。
原文链接
本文链接:https://kx.umi6.com/article/11003.html
转载请注明文章出处
相关推荐
.png)
换一换
微软纳德拉应对 AI 新挑战,DeepSeek 崛起引发战略调整
2025-05-16 14:27:57
黄仁勋力赞DeepSeek 对中国创新能力充满信心
2025-07-21 04:12:05
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
英伟达 CEO 黄仁勋:中国的 Deepseek 和阿里通义千问是当前最佳开源模型
2025-05-30 21:55:28
郑州:深化与DeepSeek等人工智能头部企业的合作
2025-06-24 20:22:15
Meta 投资 Scale AI 引发行业震动,后者竞争对手直呼“服务器都快烧化了”
2025-07-06 19:18:20
李想回应DeepSeek爆火时自己怎么过的春节:带孩子看了哪吒2
2025-05-07 21:18:12
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
DeepSeek给中国软件埋了一个「地雷」?
2025-06-24 09:14:11
梁文锋,准备战斗
2025-07-30 17:51:33
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
证监会主席吴清:全球科技创新进入密集活跃期 诸多领域都迎来了Deepseek
2025-06-18 11:39:02
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
2025-06-09 16:30:51
493 文章
184371 浏览
24小时热文
更多

-
2025-09-06 20:38:03
-
2025-09-06 19:37:51
-
2025-09-06 16:37:17