AI训练数据 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

为拿下市场和训练数据，OpenAI、谷歌在印度争相推出免费服务

12月18日，路透社报道，OpenAI、谷歌和Perplexity在印度展开免费服务竞争，旨在获取多语言数据用于AI模型训练。印度拥有7.3亿智能手机用户，每月平均消耗21GB流量，每GB仅需9.2美分，为AI产品扩散提供理想环境。谷歌于11月向Reliance Jio的5亿用户免费开放Gemini AI Pro订阅，并将印度纳入“AI Plus”折扣计划；OpenAI则从11月4日起为印度用户提供一年免费ChatGPT Go服务，原价54美元。数据显示，ChatGPT在印度的日活跃用户达7300万，同比增长607%，远超美国市场，Gemini日活用户也升至1700万。Perplexity同样加入竞争，为Airtel用户免费提供Pro方案。分析师指出，印度用户的多语言使用习惯可生成稀缺数据，对优化AI模型至关重要。

原文链接

跨界思维

12-18 17:57:39

AI训练数据

免费策略

印度

分享至

打开微信扫一扫

内容投诉

生成图片

污染AI的不只是营销号，还有AV女优和在线发牌

2025年9月，清华大学与南洋理工大学研究者发表论文揭示，以ChatGPT为代表的大语言模型正遭受中文互联网数据污染，其中AV女优‘波多野结衣’的出现频率比‘您好’高出2.6倍。AI训练数据中混入大量不良内容，导致其生成信息时可能出现异常，如胡编谣言、输出不当内容等。这类数据污染不仅影响AI表现，还引发认知污染，人类对AI错误信息的信任进一步加剧问题。论文探讨了污染来源及规避方式，但指出仅靠技术改进和法规约束不足以解决问题，公众需认识到‘AI不可全信’的重要性。类似事件如‘Deepseek给王一博道歉’谣言已显示数据污染的严重性。研究强调学界与开发者需共同努力应对这一挑战。

原文链接

数字墨迹

09-19 08:07:09

AI训练数据

数据污染

认知污染

分享至

打开微信扫一扫

内容投诉

生成图片

AI巨头陷版权风暴，免费的“数据盛宴”即将散场？

2025年6月，加州北区地方法院裁定Anthropic公司使用盗版书籍训练AI模型构成侵权，为其与作家群体的集体诉讼案奠定和解基础。8月下旬，Anthropic同意支付15亿美元达成和解，并承诺销毁相关盗版数据。案件始于2024年8月，原告指控其大语言模型Claude非法使用数百万本受版权保护的图书进行训练。法院裁决明确区分合法与非法数据来源，削弱了Anthropic的抗辩立场。本案被视为AI行业版权问题的标志性事件，将推动数据合规成为AI企业的核心议题，并可能催生AI数据授权市场的快速增长。未来，合规性将成为AI企业的重要竞争力。

原文链接

WisdomTrail

09-08 09:56:18

AI训练数据

合理使用原则

版权侵权

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 投资 Scale AI 引发行业震动，后者竞争对手直呼“服务器都快烧化了”

7月6日，Meta以143亿美元收购Scale AI近一半股份，引发行业震动。Scale AI为谷歌、OpenAI等提供AI训练数据，但交易导致部分合作暂停，竞争对手迅速填补空缺。五家竞争公司称客户咨询和招聘兴趣显著增加，强调‘数据中立性’为核心卖点。Appen CEO表示，上市公司身份和中立性成优势；Prolific和Turing也主打‘无利益冲突’吸引客户。同时，Scale的自由职业者因项目停滞转投竞争对手，Mercor AI称已收到多名Scale员工申请，仅招募顶级人才。此次收购正重塑AI数据标注市场格局。

原文链接

量子思考者

07-06 19:18:20

AI训练数据

Meta

Scale AI

分享至

打开微信扫一扫

内容投诉

生成图片

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

6月16日消息，哈佛大学法学院图书馆在微软与OpenAI支持下，开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍，涵盖245种语言、2420亿个Token，40%为英语书籍，主要集中于19至20世纪，分为20个主题。每本书提供完整元数据，包括作者、出版年份、语言及来源等信息。未来，哈佛大学计划扩展数据内容，已与波士顿公共图书馆合作，将历史报纸数字化加入数据集。此外，他们还将开发AI工具，提升馆藏整理效率并推动负责任的数据使用规范。

原文链接

AI创意引擎

06-16 23:15:51

AI训练数据集

Institutional Books 1.0

哈佛大学

分享至

打开微信扫一扫

内容投诉

生成图片

AI训练数据耗尽，这家数据标注公司为何暴涨？

美股数据标注公司Innodata近一年股价涨幅达432%，2024年营收同比增长96.44%，其中五大客户来自美股七巨头。得益于大模型行业需求激增，Innodata受益显著。然而，随着DeepSeek等新技术出现，市场对其前景产生分歧。支持者认为其转向大模型数据清理具备潜力，而质疑者指出其技术含量有限，仍高度依赖人力外包。数据显示，2024年第二季度Innodata招聘支出达360万美元，凸显人力依赖现状。尽管如此，科技专家周迪认为人工标注在深度语义理解领域仍有不可替代性，且DeepSeek可能带来更多数据标注需求。但长远来看，数据标注的AI化或成为行业挑战，Innodata可持续增长面临不确定性。

原文链接

AI幻想空间站

04-02 11:16:46

AI训练数据

Innodata

数据标注

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 深陷盗版泥潭，邮件曝光 81.7 TB AI 训练数据黑幕

2月7日，Ars Technica报道Meta公司因AI模型训练数据来源再次陷入法律纠纷。原告披露的邮件显示，Meta不仅知晓使用LibGen数据库进行AI训练涉及盗版，还试图掩盖通过种子下载方式获取至少81.7TB数据的行为，甚至采用“隐身模式”。Meta研究员Frank Zhang的邮件透露，为了避免追踪，下载数据时未使用Facebook服务器。高管迈克尔・克拉克证实Meta修改设置以减少种子传播。邮件显示使用LibGen的决定已上报给马克・扎克伯格，这与扎克伯格先前不知情的证词相矛盾。Meta坚称合理使用，但新证据使其处境更加复杂。

原文链接

心智奇点

02-07 15:59:27

AI训练数据

Meta

盗版

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库，包含6.3万亿Token，其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性，有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建，经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比，使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外，Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示，Nemotron-CC已公开在Common Crawl网站上。

原文链接

智慧棱镜

01-13 22:00:07

AI训练数据库

Nemotron-CC

英伟达

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克：AI训练数据去年就已耗尽，合成数据是唯一补充方法

人工智能训练数据耗尽了怎么办？近日，马斯克在社交平台X的直播对话中表示，AI训练数据已在去年耗尽：“我们基本用尽了所有人类知识进行AI训练。” 马斯克的观点与前OpenAI首席科学家Ilya Sutskever一致。Sutskever曾表示，AI行业已达到“数据峰值”，训练数据不足将迫使AI开发方...

原文链接

AI思维矩阵

01-10 11:17:55

AI训练数据

合成数据

马斯克

分享至

打开微信扫一扫

内容投诉

生成图片

AI训练数据再起版权争议爱奇艺起诉MiniMax索赔10万元

爱奇艺起诉国内AI初创企业MiniMax，指控其在AI模型训练中涉嫌侵犯爱奇艺版权，索赔10万元。MiniMax旗下海螺AI创意视频平台允许用户上传图片和文字生成视频。此事仍在法律程序中，MiniMax暂无回应。AIGC模型训练涉及大量受版权保护的数据，引发多起版权纠纷。例如，2024年6月，AIGC创作者DynamicWang指责360盗用其AI生成图片；2023年11月，四名国内绘画创作者起诉小红书Trik软件未经授权使用原创作品；2023年1月，美国三名漫画艺术家起诉Stability AI等公司。国内首例AI生成图片著作权侵权案已判决，但训练数据授权问题尚无定论。

原文链接