1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近期,MIT等机构的一项研究揭示了AI训练数据获取的困境。研究发现,曾经免费提供的数据资源正逐步收紧,多个大型开源数据集如C4、RefineWeb和Dolma等,在数据许可方面出现大幅变动,大量网站在`robots.txt`协议中对数据爬取设限。这一现象不仅影响着商业AI模型的训练,也对学术研究和非营利机构的研究造成了障碍。研究指出,许可协议的不对称性和不一致性使得数据获取变得更加困难,特别是对于OpenAI等AI开发者。此外,网络数据与AI常用训练场景的不匹配问题也日益凸显。 研究团队通过调查发现,自2023年中期以来,对AI数据的限制数量激增,而服务条款的限制相对稳定,更多关注于商业用途。通过SARIMA模型预测,未来数据获取限制将继续增加。研究还指出,不同组织在AI许可上的差异显著,OpenAI、Anthropic等在数据获取上受到严格限制。这不仅反映了数据获取的挑战,也揭示了数据创建者与AI科技公司之间存在的紧张关系,对非营利组织和学术研究人员造成了不利影响。 这项研究强调了AI数据获取的紧迫性,并提出了需要更灵活的协议来区分许可与非许可用例的必要性,以便更好地与服务条款同步。同时,研究呼吁AI开发者应充分利用开放网络上的数据进行训练,并期待未来的法律判决和立法能对此给予支持。此研究为AI数据获取困境提供了深入洞察,对于推动AI技术发展具有重要意义。

原文链接
本文链接:https://kx.umi6.com/article/4932.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落
2024-08-14 10:19:43
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
2024-08-19 12:33:58
当心被AI“洗脑”!MIT最新研究:大模型成功给人类植入错误记忆
2024-09-06 16:16:45
MIT终身教授何恺明,入职谷歌了
2025-06-26 10:56:19
MIT爆火论文被曝数据造假!曾验证AI辅助科研增速44%,诺奖得主都被诓了
2025-05-22 13:26:24
工信部召开务虚会 研究谋划“十五五”及开局之年工作
2025-12-07 15:35:49
Roblox CEO 巴祖基感叹 AI 研究速度:曾博览群书的自己,现在都快看不懂了
2025-12-08 19:43:05
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
阴和俊:在量子科技等领域布局建设未来产业 加强对国家重大科技任务和科技型企业的金融支持
2025-12-08 10:23:04
罗永浩谈豆包手机被部分App封杀:事情比想象的要复杂得多
2025-12-08 11:26:56
跨境电商的疑难杂症,被1688这个AI全包了…
2025-12-07 13:28:44
全球最大云厂商亚马逊 AWS,将“最牛马”的工作交给了 AI Agent
2025-12-07 18:39:34
24小时热文
更多
扫一扫体验小程序