1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背 训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)。 金鱼损失的核心是让模型像金鱼一...
蝶舞CyberSwirl
09-03 17:49:26
大模型
训练数据
金鱼损失
分享至
打开微信扫一扫
内容投诉
生成图片
数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象
8月16日,央视报道了AI数据污染问题及其潜在风险。近年来,AI因训练数据中混入虚假或误导性信息,频繁杜撰内容、传播谣言,甚至引发社会舆论和经济损失。例如,宁波两起无关事件被AI错误关联,儿童手表回答问题时贬低中国文化等案例揭示了问题严重性。专家指出,数据污染分为人为篡改和不良信息未甄别两类,即使是0.001%的污染数据也会显著提高有害输出比例。此外,污染数据可能在金融、公共安全等领域引发判断失误。为防范风险,国家安全部门建议加强源头监管,采用可信数据源,构建数据治理框架,并通过自动化工具与人工审查结合清理受污染数据。
AGI探路者
08-16 21:29:15
AI数据污染
安全隐患
训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
手术刀式去噪突破LLM能力上限,模型性能提升7.2% | 中科院&阿里 中科院计算所与阿里Qwen团队联合提出RefineX框架,通过程序化编辑任务实现大规模、精准预训练数据精炼。其核心是将专家优化结果蒸馏为基于删除操作的极简程序,高效可靠地优化语料,同时保留原始文本多样性和自然性。 预训练数据质量...
虚拟织梦者
07-21 16:18:51
RefineX
去噪
预训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 投资 Scale AI 引发行业震动,后者竞争对手直呼“服务器都快烧化了”
7月6日,Meta以143亿美元收购Scale AI近一半股份,引发行业震动。Scale AI为谷歌、OpenAI等提供AI训练数据,但交易导致部分合作暂停,竞争对手迅速填补空缺。五家竞争公司称客户咨询和招聘兴趣显著增加,强调‘数据中立性’为核心卖点。Appen CEO表示,上市公司身份和中立性成优势;Prolific和Turing也主打‘无利益冲突’吸引客户。同时,Scale的自由职业者因项目停滞转投竞争对手,Mercor AI称已收到多名Scale员工申请,仅招募顶级人才。此次收购正重塑AI数据标注市场格局。
量子思考者
07-06 19:18:20
AI训练数据
Meta
Scale AI
分享至
打开微信扫一扫
内容投诉
生成图片
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
AI创意引擎
06-16 23:15:51
AI训练数据集
Institutional Books 1.0
哈佛大学
分享至
打开微信扫一扫
内容投诉
生成图片
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学等机构的研究者提出了一种元能力对齐训练框架,模仿人类推理心理学原理,结合演绎、归纳与溯因能力,显著提升AI在数学、编程等任务上的性能。该框架无需人工标注,可自动生成训练数据并验证结果。实验显示,7B和32B参数量的模型在数学任务上分别提升了11.1%的性能。这种方法不仅增强了模型的推理能力,还展现了跨领域的可扩展性,为构建更鲁棒、可解释的AI模型提供了新思路。
像素宇宙
06-04 22:33:19
AI推理能力
元能力对齐
自动生成训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
AI训练数据耗尽,这家数据标注公司为何暴涨?
美股数据标注公司Innodata近一年股价涨幅达432%,2024年营收同比增长96.44%,其中五大客户来自美股七巨头。得益于大模型行业需求激增,Innodata受益显著。然而,随着DeepSeek等新技术出现,市场对其前景产生分歧。支持者认为其转向大模型数据清理具备潜力,而质疑者指出其技术含量有限,仍高度依赖人力外包。数据显示,2024年第二季度Innodata招聘支出达360万美元,凸显人力依赖现状。尽管如此,科技专家周迪认为人工标注在深度语义理解领域仍有不可替代性,且DeepSeek可能带来更多数据标注需求。但长远来看,数据标注的AI化或成为行业挑战,Innodata可持续增长面临不确定性。
AI幻想空间站
04-02 11:16:46
AI训练数据
Innodata
数据标注
分享至
打开微信扫一扫
内容投诉
生成图片
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考
OpenAI即将发布GPT-4.5,本周内上线。该模型拥有1T激活参数和120T训练数据,上下文窗口长度达256K,并具备多模态能力。GPT-4.5会在安卓版ChatGPT的Pro订阅用户中率先开放,每月200美元。值得注意的是,GPT-4.5在某些任务上的表现参差不齐,可能在编程等领域不如Claude 3.7 Sonnet。此外,GPT-4.5还能制作动画SVG文件和零样本音乐,但不支持受版权保护的歌曲。本周四已临近发布日期,具体发布时间仍待确认。
GhostPilot
02-27 10:11:51
GPT-4.5
激活参数
训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
AI幻觉:它真的会一本正经胡说八道!
AI幻觉是指AI生成看似合理但实际上错误的信息,常见于信息缺失或不确定时。AI通过统计关系预测而非逻辑推理,易受训练数据局限性和过拟合问题影响。此外,有限的上下文窗口和生成流畅回答的设计也加剧了这一现象。降低AI幻觉的方法包括优化提问、分批输出、交叉验证、使用RAG技术和利用AI幻觉的创造性。AI在知识迷雾中可能创造出虚幻的“影子”,但正确使用和协作能使其成为得力助手。
跨界思维
02-19 18:54:46
AI幻觉
提问方式
训练数据
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 深陷盗版泥潭,邮件曝光 81.7 TB AI 训练数据黑幕
2月7日,Ars Technica报道Meta公司因AI模型训练数据来源再次陷入法律纠纷。原告披露的邮件显示,Meta不仅知晓使用LibGen数据库进行AI训练涉及盗版,还试图掩盖通过种子下载方式获取至少81.7TB数据的行为,甚至采用“隐身模式”。Meta研究员Frank Zhang的邮件透露,为了避免追踪,下载数据时未使用Facebook服务器。高管迈克尔・克拉克证实Meta修改设置以减少种子传播。邮件显示使用LibGen的决定已上报给马克・扎克伯格,这与扎克伯格先前不知情的证词相矛盾。Meta坚称合理使用,但新证据使其处境更加复杂。
心智奇点
02-07 15:59:27
AI训练数据
Meta
盗版
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序