1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Meta 投资 Scale AI 引发行业震动,后者竞争对手直呼“服务器都快烧化了”
7月6日,Meta以143亿美元收购Scale AI近一半股份,引发行业震动。Scale AI为谷歌、OpenAI等提供AI训练数据,但交易导致部分合作暂停,竞争对手迅速填补空缺。五家竞争公司称客户咨询和招聘兴趣显著增加,强调‘数据中立性’为核心卖点。Appen CEO表示,上市公司身份和中立性成优势;Prolific和Turing也主打‘无利益冲突’吸引客户。同时,Scale的自由职业者因项目停滞转投竞争对手,Mercor AI称已收到多名Scale员工申请,仅招募顶级人才。此次收购正重塑AI数据标注市场格局。
量子思考者
07-06 19:18:20
AI训练数据
Meta
Scale AI
分享至
打开微信扫一扫
内容投诉
生成图片
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
AI创意引擎
06-16 23:15:51
AI训练数据集
Institutional Books 1.0
哈佛大学
分享至
打开微信扫一扫
内容投诉
生成图片
AI训练数据耗尽,这家数据标注公司为何暴涨?
美股数据标注公司Innodata近一年股价涨幅达432%,2024年营收同比增长96.44%,其中五大客户来自美股七巨头。得益于大模型行业需求激增,Innodata受益显著。然而,随着DeepSeek等新技术出现,市场对其前景产生分歧。支持者认为其转向大模型数据清理具备潜力,而质疑者指出其技术含量有限,仍高度依赖人力外包。数据显示,2024年第二季度Innodata招聘支出达360万美元,凸显人力依赖现状。尽管如此,科技专家周迪认为人工标注在深度语义理解领域仍有不可替代性,且DeepSeek可能带来更多数据标注需求。但长远来看,数据标注的AI化或成为行业挑战,Innodata可持续增长面临不确定性。
AI幻想空间站
04-02 11:16:46
AI训练数据
Innodata
数据标注
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 深陷盗版泥潭,邮件曝光 81.7 TB AI 训练数据黑幕
2月7日,Ars Technica报道Meta公司因AI模型训练数据来源再次陷入法律纠纷。原告披露的邮件显示,Meta不仅知晓使用LibGen数据库进行AI训练涉及盗版,还试图掩盖通过种子下载方式获取至少81.7TB数据的行为,甚至采用“隐身模式”。Meta研究员Frank Zhang的邮件透露,为了避免追踪,下载数据时未使用Facebook服务器。高管迈克尔・克拉克证实Meta修改设置以减少种子传播。邮件显示使用LibGen的决定已上报给马克・扎克伯格,这与扎克伯格先前不知情的证词相矛盾。Meta坚称合理使用,但新证据使其处境更加复杂。
心智奇点
02-07 15:59:27
AI训练数据
Meta
盗版
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。
智慧棱镜
01-13 22:00:07
AI训练数据库
Nemotron-CC
英伟达
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克:AI训练数据去年就已耗尽,合成数据是唯一补充方法
人工智能训练数据耗尽了怎么办? 近日,马斯克在社交平台X的直播对话中表示,AI训练数据已在去年耗尽:“我们基本用尽了所有人类知识进行AI训练。” 马斯克的观点与前OpenAI首席科学家Ilya Sutskever一致。Sutskever曾表示,AI行业已达到“数据峰值”,训练数据不足将迫使AI开发方...
AI思维矩阵
01-10 11:17:55
AI训练数据
合成数据
马斯克
分享至
打开微信扫一扫
内容投诉
生成图片
AI训练数据再起版权争议 爱奇艺起诉MiniMax索赔10万元
爱奇艺起诉国内AI初创企业MiniMax,指控其在AI模型训练中涉嫌侵犯爱奇艺版权,索赔10万元。MiniMax旗下海螺AI创意视频平台允许用户上传图片和文字生成视频。此事仍在法律程序中,MiniMax暂无回应。AIGC模型训练涉及大量受版权保护的数据,引发多起版权纠纷。例如,2024年6月,AIGC创作者DynamicWang指责360盗用其AI生成图片;2023年11月,四名国内绘画创作者起诉小红书Trik软件未经授权使用原创作品;2023年1月,美国三名漫画艺术家起诉Stability AI等公司。国内首例AI生成图片著作权侵权案已判决,但训练数据授权问题尚无定论。
Journeyman
01-06 18:38:11
AI训练数据
爱奇艺起诉MiniMax
版权争议
分享至
打开微信扫一扫
内容投诉
生成图片
“训练数据抄袭”:DeepSeek动了谁的奶酪?
标题:“训练数据抄袭”:DeepSeek动了谁的奶酪? 正文: 有读者指出:DeepSeek V3 存在“训练数据抄袭”的问题。模型有时会产生奇怪的幻觉,如自称“GPT-4”,甚至讲的笑话也与GPT-4高度相似。这可能是训练数据受到污染所致。 大型语言模型(LLM)通过学习海量互联网文本数据(语料)...
LunarCoder
12-30 21:31:57
AI训练数据
DeepSeek
版权问题
分享至
打开微信扫一扫
内容投诉
生成图片
Meta科学家杨立昆:用于AI训练的可靠数据来源正在枯竭
Facebook首席人工智能科学家、图灵奖得主杨立昆警告,AI训练的优质数据源正在减少,而人工"后期训练"成本激增。他指出,当前AI模型在基准测试中的性能已接近极限,大型语言模型难以匹敌人类智能。然而,这并不意味着AI无用武之地。此言论于2日发表,凸显了AI发展面临的关键挑战和潜在机遇。
未来笔触
09-02 15:46:59
AI训练数据
Meta
杨立昆
分享至
打开微信扫一扫
内容投诉
生成图片
「肢解」谷歌帝国!Chrome安卓或遭剥离,AI训练数据被迫共享
谷歌帝国正面临历史性挑战。因违反反垄断法,谷歌可能遭受强制分拆,面临与Chrome浏览器和安卓操作系统解绑的命运。这起反垄断案的胜诉,对谷歌的搜索引擎市场份额造成了重大冲击,目前谷歌在91%的市场份额上占据主导地位,其竞争对手Bing仅占不到4%。为了维护市场平衡,司法部考虑通过共享AI训练数据的方式,助力竞争对手提升搜索服务质量,以对抗谷歌的垄断。若谷歌败诉并分拆,这将是自80年代AT&T分拆以来最重大的企业重组案例。此判决对谷歌自身以及科技行业具有深远影响,亚马逊和Meta等公司也正面临类似的反垄断压力。谷歌已宣布将对此判决提起上诉,但未来走向仍充满不确定性,谷歌的未来战略和发展路径面临重大调整。
AGI探路者
08-16 17:28:04
AI训练数据共享
反垄断案
谷歌帝国
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序