中文数据在AI大模型发展中遭遇困境,被视为"互联网孤岛"。由于数据分散、质量低和短缺,中国AI大模型依赖英文开源语料,中文语料尤其是高质量数据匮乏,导致模型思维西式化。国家数据局报告显示,尽管中国数据总量庞大,但仍面临有效供给不足和价值释放难题。为破局,国家和企业正在推动数据共享计划,如开源数据集、共建共享和“数算一体”模式,尝试解决数据孤岛问题。专家建议市场机制和数据联盟将是未来趋势,以促进数据的高效利用和价值发挥。
原文链接
本文链接:https://kx.umi6.com/article/3408.html
转载请注明文章出处
相关推荐
.png)
换一换
中文数据为什么成了“互联网孤岛”?
2024-07-16 14:55:50
OpenAI在内,所有大模型都撞到了同一堵墙
2024-11-11 20:44:10
我国多数模型使用的中文数据占比超 60%,部分已达 80%
2025-08-14 11:52:44
国家数据局:国内多数AI模型训练使用的中文数据占比已超60%
2025-08-21 15:37:53
媒体再爆:OpenAI的GPT-5训练遇阻
2024-12-23 10:54:43
硅谷版的“莞莞类卿”?分析师称博通业绩增速令人想起早年的英伟达
2025-09-06 15:35:56
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
2025-09-06 11:35:08
五年内预计“烧钱”超千亿美元 OpenAl试图自研芯片控制成本
2025-09-08 19:03:01
谷歌nano banana成功后,OpenAI花11亿买了一家公司
2025-09-08 18:02:57
OpenAI 为动画长片提供工具和资源支持,力图证明 AI“拍电影”比好莱坞更快更便宜
2025-09-08 17:03:11
还得继续砸钱,OpenAI 预计到 2029 年总支出或超千亿美元
2025-09-06 20:38:03
黄仁勋的话白说了
2025-09-07 20:49:25
509 文章
173042 浏览
24小时热文
更多

-
2025-09-08 22:04:30
-
2025-09-08 21:06:20
-
2025-09-08 21:05:04