中文数据在AI大模型发展中遭遇困境,被视为"互联网孤岛"。由于数据分散、质量低和短缺,中国AI大模型依赖英文开源语料,中文语料尤其是高质量数据匮乏,导致模型思维西式化。国家数据局报告显示,尽管中国数据总量庞大,但仍面临有效供给不足和价值释放难题。为破局,国家和企业正在推动数据共享计划,如开源数据集、共建共享和“数算一体”模式,尝试解决数据孤岛问题。专家建议市场机制和数据联盟将是未来趋势,以促进数据的高效利用和价值发挥。
原文链接
本文链接:https://kx.umi6.com/article/3408.html
转载请注明文章出处
相关推荐
换一换
国家数据局:国内多数AI模型训练使用的中文数据占比已超60%
2025-08-21 15:37:53
OpenAI在内,所有大模型都撞到了同一堵墙
2024-11-11 20:44:10
媒体再爆:OpenAI的GPT-5训练遇阻
2024-12-23 10:54:43
我国多数模型使用的中文数据占比超 60%,部分已达 80%
2025-08-14 11:52:44
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
慕尼黑工大Johannes Betz 教授:时速300公里的自动驾驶超车 | ICRA 2026
2026-06-04 16:14:04
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
行业景气度走高!SK暂缓出让晶圆厂商SK Siltron
2026-06-04 20:22:35
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
2026-06-08 11:27:33
亚洲首富只当了三天 孙正义是时代弄潮儿还是追泡沫的人?
2026-06-04 17:16:03
大模型看Coding,具身看Picking!原力灵机已抢先入局
2026-06-08 15:31:34
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
AI创业者集结!“2026新一代人工智能(深圳)创业创新大赛”正式启动
2026-06-08 18:39:30
716 文章
633833 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41