训练数据 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

干家务一小时挣1000元，具身智能时代人类新岗位

2025年10月，媒体报道了一种新兴职业：通过录制家务视频为机器人训练提供数据。参与者每小时可赚取最高150美元（约合1000元人民币）。这些视频被Encord、Micro1、Scale AI等数据服务商高价收购，用于训练人形机器人。目前，机器人行业面临数据短缺问题，因缺乏现成互联网数据集，必须依赖真实世界或合成数据进行训练。真实数据质量高但成本昂贵，合成数据则通过虚拟环境生成，兼顾规模与成本。多家AI公司正加速布局，如Scale AI已生成超10万小时训练影像。然而，优质数据仍供不应求，某初创公司甚至在Craigslist上以10-20美元时薪征集家务视频。业内人士指出，当前最大数据集仅约5000小时，远未满足需求。

原文链接

AI幻想空间站

10-24 12:34:34

具身智能

家务视频

机器人训练数据

分享至

打开微信扫一扫

内容投诉

生成图片

污染AI的不只是营销号，还有AV女优和在线发牌

2025年9月，清华大学与南洋理工大学研究者发表论文揭示，以ChatGPT为代表的大语言模型正遭受中文互联网数据污染，其中AV女优‘波多野结衣’的出现频率比‘您好’高出2.6倍。AI训练数据中混入大量不良内容，导致其生成信息时可能出现异常，如胡编谣言、输出不当内容等。这类数据污染不仅影响AI表现，还引发认知污染，人类对AI错误信息的信任进一步加剧问题。论文探讨了污染来源及规避方式，但指出仅靠技术改进和法规约束不足以解决问题，公众需认识到‘AI不可全信’的重要性。类似事件如‘Deepseek给王一博道歉’谣言已显示数据污染的严重性。研究强调学界与开发者需共同努力应对这一挑战。

原文链接

数字墨迹

09-19 08:07:09

AI训练数据

数据污染

认知污染

分享至

打开微信扫一扫

内容投诉

生成图片

公安网安部门依法对某人工智能服务科技有限公司予以行政处罚

9月15日，公安网安部门在“护网—2025”专项工作中发现，某提供人工智能模型训练数据的科技公司未按《个人信息保护法》要求进行个人信息保护影响评估，涉及人脸等敏感生物信息处理。属地公安机关依法对该公司作出行政处罚并责令整改。国家网络安全通报中心提示，合法合规的数据是大模型研发基础，相关企业应加强安全管理，履行法律义务，防范网络与数据安全风险，保障人工智能产业高质量发展。

原文链接

AI奇点纪元

09-15 17:00:59

个人信息保护法

人工智能训练数据

网络安全

分享至

打开微信扫一扫

内容投诉

生成图片

AI巨头陷版权风暴，免费的“数据盛宴”即将散场？

2025年6月，加州北区地方法院裁定Anthropic公司使用盗版书籍训练AI模型构成侵权，为其与作家群体的集体诉讼案奠定和解基础。8月下旬，Anthropic同意支付15亿美元达成和解，并承诺销毁相关盗版数据。案件始于2024年8月，原告指控其大语言模型Claude非法使用数百万本受版权保护的图书进行训练。法院裁决明确区分合法与非法数据来源，削弱了Anthropic的抗辩立场。本案被视为AI行业版权问题的标志性事件，将推动数据合规成为AI企业的核心议题，并可能催生AI数据授权市场的快速增长。未来，合规性将成为AI企业的重要竞争力。

原文链接

WisdomTrail

09-08 09:56:18

AI训练数据

合理使用原则

版权侵权

分享至

打开微信扫一扫

内容投诉

生成图片

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背训练大模型时，“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据，为解决这一问题，马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失（Goldfish Loss）。金鱼损失的核心是让模型像金鱼一...

原文链接

蝶舞CyberSwirl

09-03 17:49:26

大模型

训练数据

金鱼损失

分享至

打开微信扫一扫

内容投诉

生成图片

数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象

8月16日，央视报道了AI数据污染问题及其潜在风险。近年来，AI因训练数据中混入虚假或误导性信息，频繁杜撰内容、传播谣言，甚至引发社会舆论和经济损失。例如，宁波两起无关事件被AI错误关联，儿童手表回答问题时贬低中国文化等案例揭示了问题严重性。专家指出，数据污染分为人为篡改和不良信息未甄别两类，即使是0.001%的污染数据也会显著提高有害输出比例。此外，污染数据可能在金融、公共安全等领域引发判断失误。为防范风险，国家安全部门建议加强源头监管，采用可信数据源，构建数据治理框架，并通过自动化工具与人工审查结合清理受污染数据。

原文链接

AGI探路者

08-16 21:29:15

AI数据污染

安全隐患

训练数据

分享至

打开微信扫一扫

内容投诉

生成图片

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

手术刀式去噪突破LLM能力上限，模型性能提升7.2% | 中科院＆阿里中科院计算所与阿里Qwen团队联合提出RefineX框架，通过程序化编辑任务实现大规模、精准预训练数据精炼。其核心是将专家优化结果蒸馏为基于删除操作的极简程序，高效可靠地优化语料，同时保留原始文本多样性和自然性。预训练数据质量...

原文链接

虚拟织梦者

07-21 16:18:51

RefineX

去噪

预训练数据

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 投资 Scale AI 引发行业震动，后者竞争对手直呼“服务器都快烧化了”

7月6日，Meta以143亿美元收购Scale AI近一半股份，引发行业震动。Scale AI为谷歌、OpenAI等提供AI训练数据，但交易导致部分合作暂停，竞争对手迅速填补空缺。五家竞争公司称客户咨询和招聘兴趣显著增加，强调‘数据中立性’为核心卖点。Appen CEO表示，上市公司身份和中立性成优势；Prolific和Turing也主打‘无利益冲突’吸引客户。同时，Scale的自由职业者因项目停滞转投竞争对手，Mercor AI称已收到多名Scale员工申请，仅招募顶级人才。此次收购正重塑AI数据标注市场格局。

原文链接

量子思考者

07-06 19:18:20

AI训练数据

Meta

Scale AI

分享至

打开微信扫一扫

内容投诉

生成图片

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

6月16日消息，哈佛大学法学院图书馆在微软与OpenAI支持下，开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍，涵盖245种语言、2420亿个Token，40%为英语书籍，主要集中于19至20世纪，分为20个主题。每本书提供完整元数据，包括作者、出版年份、语言及来源等信息。未来，哈佛大学计划扩展数据内容，已与波士顿公共图书馆合作，将历史报纸数字化加入数据集。此外，他们还将开发AI工具，提升馆藏整理效率并推动负责任的数据使用规范。

原文链接

AI创意引擎

06-16 23:15:51

AI训练数据集

Institutional Books 1.0

哈佛大学

分享至

打开微信扫一扫

内容投诉

生成图片

无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

新加坡国立大学等机构的研究者提出了一种元能力对齐训练框架，模仿人类推理心理学原理，结合演绎、归纳与溯因能力，显著提升AI在数学、编程等任务上的性能。该框架无需人工标注，可自动生成训练数据并验证结果。实验显示，7B和32B参数量的模型在数学任务上分别提升了11.1%的性能。这种方法不仅增强了模型的推理能力，还展现了跨领域的可扩展性，为构建更鲁棒、可解释的AI模型提供了新思路。

原文链接