9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。该版本数据量达120GB,由中央网信办指导,中国网络空间安全协会联合国家互联网应急中心等单位共同打造。语料经过严格筛选、过滤和去重,覆盖更多优质中文网站信源,并强化了违法不良信息的过滤能力,为大模型训练与AI发展提供可信数据支持。网安协会表示,这是各界协同共建高质量中文语料的重要成果,未来将持续加强语料建设,助力人工智能技术创新与产业发展。
原文链接
本文链接:https://kx.umi6.com/article/25456.html
转载请注明文章出处
相关推荐
换一换
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
双非大学生,涌入大厂AI流水线
2025-12-04 18:35:49
中文互联网基础语料 3.0 发布:数据量为 120GB,助力大模型训练与 AI 发展
2025-09-18 15:56:52
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
人工智能全球治理上海宣言发布
2024-07-04 12:59:25
特朗普亮牌,设置人工智能部长为哪般?
2024-12-08 15:06:42
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
上海第一批自动驾驶大模型训练数据采集车正式发车
2024-12-31 20:48:59
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05 19:46:53
打工15年,被大厂裁4次了
2025-12-08 11:21:19
647 文章
394406 浏览
24小时热文
更多
-
2025-12-08 12:28:38 -
2025-12-08 12:27:32 -
2025-12-08 12:26:26