9月18日,在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料3.0正式发布。该版本数据量达120GB,由中央网信办指导,中国网络空间安全协会联合国家互联网应急中心等单位共同打造。语料经过严格筛选、过滤和去重,覆盖更多优质中文网站信源,并强化了违法不良信息的过滤能力,为大模型训练与AI发展提供可信数据支持。网安协会表示,这是各界协同共建高质量中文语料的重要成果,未来将持续加强语料建设,助力人工智能技术创新与产业发展。
原文链接
本文链接:https://kx.umi6.com/article/25456.html
转载请注明文章出处
相关推荐
换一换
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
上海第一批自动驾驶大模型训练数据采集车正式发车
2024-12-31 20:48:59
现有路径不通?OpenAI、亚马逊考虑改变大模型训练方式
2026-01-27 12:08:17
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
国家数据局局长刘烈宏:日均Token调用量增加 表明我国AI发展进入快速增长阶段
2026-03-24 12:50:42
人工智能全球治理上海宣言发布
2024-07-04 12:59:25
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
月之暗面杨植麟:大模型训练进入第三个阶段 今年起AI研发会逐渐加速
2026-03-25 12:30:36
特朗普亮牌,设置人工智能部长为哪般?
2024-12-08 15:06:42
双非大学生,涌入大厂AI流水线
2025-12-04 18:35:49
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
762 文章
622732 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17