英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。
原文链接
本文链接:https://kx.umi6.com/article/11611.html
转载请注明文章出处
相关推荐
.png)
换一换
英伟达 CEO 黄仁勋:未来每个制造业工厂都会有匹配的“AI 工厂”
2025-05-29 11:17:56
知情人士:英伟达正就投资量子计算公司PsiQuantum 进行深入谈判
2025-05-19 20:23:00
老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元
2025-07-16 11:00:09
453 文章
62818 浏览
24小时热文
更多

-
2025-07-19 15:54:36
-
2025-07-19 15:54:26
-
2025-07-19 14:57:21