英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。
原文链接
本文链接:https://kx.umi6.com/article/11611.html
转载请注明文章出处
相关推荐
换一换
清仓英伟达,科技大佬新信号
2025-11-19 10:07:43
英伟达首席财务官:公司“绝对没有”在 AI 竞赛中失去领先地位
2025-12-03 14:22:33
66位分析师中“独一个”:对英伟达股票给出卖出评级!
2025-11-17 16:33:47
Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍
2025-12-04 12:20:54
美股三大指数小幅高开 英伟达开盘涨超2%
2025-11-26 23:07:50
投资界24h | 英伟达市值一夜消失8000亿;稚晖君出任上纬新材董事长;华平投资,官宣一笔收购
2025-11-26 09:39:34
黄仁勋没看到泡沫
2025-11-20 13:24:42
英伟达CFO:正朝着今明两年5000亿美元收入目标稳步推进 并有望在此基础上进一步增长
2025-11-20 09:17:09
显卡越卖越贵不赚钱!黄仁勋送出公司史上最强业绩 英伟达发财报:1个季度狂赚319亿美元
2025-11-20 09:10:12
现代汽车集团进一步强化与英伟达合作,将导入 5 万颗 Blackwell GPU
2025-11-02 10:17:33
孙正义称他“哭着”清仓英伟达:若非需要资金 原本一股也不会卖
2025-12-01 19:31:58
英伟达推出 Blackwell 世代机器人处理器 IGX Thor,AI 算力 5581 TFLOPS
2025-11-02 00:55:11
英伟达CEO黄仁勋完成10亿美元股票出售
2025-11-01 06:13:22
609 文章
339082 浏览
24小时热文
更多
-
2025-12-08 19:45:13 -
2025-12-08 19:43:05 -
2025-12-08 18:41:52