中文数据在AI大模型发展中遭遇困境,被视为"互联网孤岛"。由于数据分散、质量低和短缺,中国AI大模型依赖英文开源语料,中文语料尤其是高质量数据匮乏,导致模型思维西式化。国家数据局报告显示,尽管中国数据总量庞大,但仍面临有效供给不足和价值释放难题。为破局,国家和企业正在推动数据共享计划,如开源数据集、共建共享和“数算一体”模式,尝试解决数据孤岛问题。专家建议市场机制和数据联盟将是未来趋势,以促进数据的高效利用和价值发挥。
原文链接
本文链接:https://kx.umi6.com/article/3408.html
转载请注明文章出处
相关推荐
换一换
媒体再爆:OpenAI的GPT-5训练遇阻
2024-12-23 10:54:43
国家数据局:国内多数AI模型训练使用的中文数据占比已超60%
2025-08-21 15:37:53
我国多数模型使用的中文数据占比超 60%,部分已达 80%
2025-08-14 11:52:44
OpenAI在内,所有大模型都撞到了同一堵墙
2024-11-11 20:44:10
DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片
2026-04-24 13:09:49
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
2026-04-23 16:14:21
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
谷歌云AI使用量达到每分钟160亿Tokens
2026-04-22 21:29:40
两部门:重点在软件和信息服务、数字交付贸易的数据安全与隐私保护、数据要素跨境流动、数字贸易平台建设等方面率先推进标准研制和体系建设
2026-04-23 12:05:12
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
美国首次将人工智能纳入刑事调查范畴 有关监管迫在眉睫
2026-04-22 16:19:56
广东:引导智算中心集群化发展、集约化建设 积极谋划省级“智算池”
2026-04-22 17:31:23
谷歌发布一系列新AI工具
2026-04-22 21:32:58
692 文章
549151 浏览
24小时热文
更多
-
2026-04-24 16:22:09 -
2026-04-24 16:21:03 -
2026-04-24 16:19:57