
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月6日,Meta以143亿美元收购Scale AI近一半股份,引发行业震动。Scale AI为谷歌、OpenAI等提供AI训练数据,但交易导致部分合作暂停,竞争对手迅速填补空缺。五家竞争公司称客户咨询和招聘兴趣显著增加,强调‘数据中立性’为核心卖点。Appen CEO表示,上市公司身份和中立性成优势;Prolific和Turing也主打‘无利益冲突’吸引客户。同时,Scale的自由职业者因项目停滞转投竞争对手,Mercor AI称已收到多名Scale员工申请,仅招募顶级人才。此次收购正重塑AI数据标注市场格局。
原文链接
美国加州北区法院近日对两起AI训练素材版权案作出简易判决,首次明确AI训练中的合理使用边界。在作家诉Anthropic案中,法院认定合法购买书籍扫描为电子版用于训练属合理使用,但通过盗版网站下载内容仍构成侵权。Meta案中,法院认为其使用BT种子下载盗版图书训练Llama模型具有转换性,不构成市场替代,亦属合理使用。两案反映出中美在AI产业发展与版权监管间的博弈差异,美国法院对AI产业持较宽松态度,而欧盟则倾向严格合规。判决涉及数据取得、训练和输出三个核心问题,强调盗版素材不可接受,但正版转化及训练行为可适用合理使用原则。我国预计也将陆续出现类似案件的一审判决。
原文链接
美国法院近日裁定,AI公司可未经作者同意,使用合法购买的已出版书籍训练人工智能模型。该裁决涉及Anthropic公司,其在2024年8月被三位作家起诉,指控其使用盗版和正版书籍训练Claude模型。法院认为AI训练属于‘转化性使用’,符合版权法中的‘合理使用’原则,未直接替代原作市场。但法院同时指出,盗版书籍的使用仍属侵权,需另行审理。此次裁决是美国首次明确支持AI公司使用合法书籍训练模型,降低了版权风险,可能影响Open AI和Meta相关案件的后续审理。
原文链接
6月26日,据路透社报道,微软因在训练AI模型Megatron时使用未经许可的盗版书籍内容,正面临多位知名作家的版权诉讼。原告包括凯・伯德、贾・托连蒂诺等,他们指控微软利用近20万本盗版书籍的数据集训练AI,使其能模仿原作风格生成文本。案件还涉及Meta、Anthropic及OpenAI。此前,加州法院曾裁定AI使用盗版内容仍可能担责,而科技企业则辩称其行为属于“合理使用”。原告要求法院禁令并索赔每部作品最高15万美元。
原文链接
6月24日,美国加州北区地方法院裁定,使用受版权保护的内容训练人工智能模型属于合法行为。该裁决支持了AI公司Anthropic使用盗版材料训练其Claude AI模型的行为,引发创作者权益争议。内容创作者长期抱怨AI公司未经许可抓取其作品用于训练模型,并从中获利,而原作者却未获任何补偿。此案由Andrea Bartz、Charles Graeber和Kirk Wallace Johnson于2024年提起诉讼,法官William Alsup最终认定用于训练大语言模型的副本属于合理使用。该裁决被认为对艺术家、音乐家和作家等群体不利,可能加剧AI行业与创作者之间的矛盾。
原文链接
6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
原文链接
5月29日,我国科学家联合研发出混合并行新算法GroPipe,首次结合流水线模型并行与数据并行技术,使AI训练速度近乎翻倍。该算法由西北农林科技大学刘斌教授团队主导,与美国纽约州立大学及云南大学合作完成,相关论文发表于《IEEE Transactions on Computers》。研究针对大型深度卷积神经网络训练中的负载不平衡和通信开销问题,提出基于性能预测的自动模型分割算法,实现了计算资源的高效利用。实验显示,在8-GPU服务器上,GroPipe相比传统方法,在ImageNet数据集上的ResNet系列平均加速比达42.2%,VGG系列达79.2%,BERT-base模型提升最高达51%。
原文链接
2024年12月,Nosu Research推出Psyche网络,通过区块链技术整合全球计算资源,成功完成40B参数大语言模型Consilience的预训练,总计20万亿token,刷新互联网最大规模预训练记录。该模型采用多头潜在注意力架构,较Llama的GQA架构更具表达力。Psyche网络利用DisTrO优化器显著降低带宽需求,实现高效分布式训练,同时支持强化学习框架提升模型推理能力。通过区块链技术,Psyche网络实现了无需许可、弹性高可用及激励机制,推动AI民主化进程。Psyche计划分阶段开放测试网,逐步引入更多功能,为开源社区和小型团队提供与科技巨头竞争的机会。
原文链接
4月24日,Adobe推出全新应用Content Authenticity,旨在保护创意工作者的作品署名权,防止二次传播和AI训练滥用。该应用今日开启公众测试,用户可上传图像添加隐形元数据和“禁止AI训练”标签,同时追踪编辑历史并验证创作者身份。为增强安全性,应用与Behance平台联动,并支持LinkedIn身份验证,但暗指X平台在马斯克收购后退出相关倡议。应用目前免费,支持JPEG/PNG格式,未来将扩展至视频和音频。创作者可通过此应用高效阻止AI使用其作品训练,尽管Adobe无法保证所有AI公司均会遵守。此外,普通用户也能查验图片内容凭证和编辑历史,帮助识别生成式AI伪造内容。
原文链接
美股数据标注公司Innodata近一年股价涨幅达432%,2024年营收同比增长96.44%,其中五大客户来自美股七巨头。得益于大模型行业需求激增,Innodata受益显著。然而,随着DeepSeek等新技术出现,市场对其前景产生分歧。支持者认为其转向大模型数据清理具备潜力,而质疑者指出其技术含量有限,仍高度依赖人力外包。数据显示,2024年第二季度Innodata招聘支出达360万美元,凸显人力依赖现状。尽管如此,科技专家周迪认为人工标注在深度语义理解领域仍有不可替代性,且DeepSeek可能带来更多数据标注需求。但长远来看,数据标注的AI化或成为行业挑战,Innodata可持续增长面临不确定性。
原文链接
加载更多

暂无内容