英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。
原文链接
本文链接:https://kx.umi6.com/article/11611.html
转载请注明文章出处
相关推荐
换一换
英伟达炸裂业绩打飞“AI泡沫”,黄仁勋:云端GPU卖光了
2025-11-20 13:21:59
谷歌TPU引爆“新DeepSeek时刻”,华尔街开始抛弃英伟达?
2025-11-26 01:16:37
英伟达据悉将以大约200亿美元收购人工智能芯片初创公司Groq
2025-12-25 05:17:41
黄仁勋「收购式」抢人继续
2026-01-01 19:30:34
应对 AI 时代“缺电”之困,消息称英伟达下周举办闭门峰会
2025-12-12 23:16:20
英伟达遭版权诉讼,被指联系影子图书馆获取 500TB 盗版数据
2026-01-20 19:25:39
华尔街尬捧TPU学术界懵了:何恺明5年前就是TPU编程高手,多新鲜
2025-11-30 11:04:10
SK海力士、三星向英伟达交付付费版HBM4样品
2025-12-16 10:35:44
英伟达:我们为谷歌在 AI 方面的成功而高兴,但现阶段我们的芯片领先一代
2025-11-26 09:41:53
黄仁勋证实英伟达已取代苹果 成为台积电最大客户
2026-01-22 16:02:53
“大空头”伯里:英伟达“制造高功耗 GPU 战略”或使中国在 AI 竞赛中领先美国
2025-12-22 23:07:36
以色列 AI21 Labs 否认与英伟达交易传闻:正与多方洽谈
2025-12-31 15:26:01
投资界24h | 英伟达市值一夜消失8000亿;稚晖君出任上纬新材董事长;华平投资,官宣一笔收购
2025-11-26 09:39:34
660 文章
412393 浏览
24小时热文
更多
-
2026-01-23 08:40:41 -
2026-01-23 06:34:26 -
2026-01-23 00:20:44