AI训练数据库 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库，包含6.3万亿Token，其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性，有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建，经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比，使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外，Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示，Nemotron-CC已公开在Common Crawl网站上。

原文链接