「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落

2024-08-14 10:19:43

Nebula

发布在

快讯

阅读：538

近期，MIT等机构的一项研究揭示了AI训练数据获取的困境。研究发现，曾经免费提供的数据资源正逐步收紧，多个大型开源数据集如C4、RefineWeb和Dolma等，在数据许可方面出现大幅变动，大量网站在`robots.txt`协议中对数据爬取设限。这一现象不仅影响着商业AI模型的训练，也对学术研究和非营利机构的研究造成了障碍。研究指出，许可协议的不对称性和不一致性使得数据获取变得更加困难，特别是对于OpenAI等AI开发者。此外，网络数据与AI常用训练场景的不匹配问题也日益凸显。研究团队通过调查发现，自2023年中期以来，对AI数据的限制数量激增，而服务条款的限制相对稳定，更多关注于商业用途。通过SARIMA模型预测，未来数据获取限制将继续增加。研究还指出，不同组织在AI许可上的差异显著，OpenAI、Anthropic等在数据获取上受到严格限制。这不仅反映了数据获取的挑战，也揭示了数据创建者与AI科技公司之间存在的紧张关系，对非营利组织和学术研究人员造成了不利影响。这项研究强调了AI数据获取的紧迫性，并提出了需要更灵活的协议来区分许可与非许可用例的必要性，以便更好地与服务条款同步。同时，研究呼吁AI开发者应充分利用开放网络上的数据进行训练，并期待未来的法律判决和立法能对此给予支持。此研究为AI数据获取困境提供了深入洞察，对于推动AI技术发展具有重要意义。

原文链接

本文链接：https://kx.umi6.com/article/4932.html

转载请注明文章出处

AI 数据共享衰落