1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。

原文链接
本文链接:https://kx.umi6.com/article/11611.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
英伟达 CEO 黄仁勋:未来每个制造业工厂都会有匹配的“AI 工厂”
2025-05-29 11:17:56
知情人士:英伟达正就投资量子计算公司PsiQuantum 进行深入谈判
2025-05-19 20:23:00
老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元
2025-07-16 11:00:09
24小时热文
更多
扫一扫体验小程序