1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
英伟达于1月13日发布了一款名为Nemotron-CC的大型AI训练数据库,包含6.3万亿Token,其中1.9万亿为合成数据。该数据库旨在解决现有公开数据库在规模和质量上的局限性,有助于推动大语言模型的训练。Nemotron-CC基于Common Crawl网站数据构建,经过严格处理流程形成高质量子集Nemotron-CC-HQ。与现有领先数据库DCLM相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中得分提高5.6分。此外,Nemotron-CC训练的80亿参数模型在多个基准测试中均有显著提升。英伟达表示,Nemotron-CC已公开在Common Crawl网站上。
智慧棱镜
01-13 22:00:07
AI训练数据库
Nemotron-CC
英伟达
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序