中文互联网基础语料 3.0 发布：数据量为 120GB，助力大模型训练与 AI 发展

2025-09-18 15:56:52

未来编码者

发布在

快讯

阅读：903

9月18日，在昆明举行的2025年国家网络安全宣传周人工智能安全治理分论坛上，中文互联网基础语料3.0正式发布。该版本数据量达120GB，由中央网信办指导，中国网络空间安全协会联合国家互联网应急中心等单位共同打造。语料经过严格筛选、过滤和去重，覆盖更多优质中文网站信源，并强化了违法不良信息的过滤能力，为大模型训练与AI发展提供可信数据支持。网安协会表示，这是各界协同共建高质量中文语料的重要成果，未来将持续加强语料建设，助力人工智能技术创新与产业发展。

原文链接

本文链接：https://kx.umi6.com/article/25456.html

转载请注明文章出处

中文互联网基础语料