3月19日,中国信息通信研究院(信通院)宣布启动AI大模型幻觉评测,旨在评估大模型在生成内容时出现的幻觉现象。幻觉指模型输出与用户输入不符或与事实不符的内容,尤其在医疗、金融等重要领域的应用中,这一问题引发关注。此次评测以大语言模型为对象,涵盖事实性幻觉和忠实性幻觉两种类型,并设置了包括人文科学、社会科学、自然科学等在内的五大测试维度。评测数据包含超7000条中文样本,测试形式分为信息抽取、知识推理及事实判别等题型。信通院邀请相关企业参与,共同推进大模型的安全应用。
原文链接
本文链接:https://kx.umi6.com/article/15744.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 日入 409 万,但“大厂平替”们仍深陷亏损泥潭
2025-03-02 22:53:22
DeepSeek爆火:AI赛道的一次“非典型突围”
2025-02-24 11:24:55
从「造砖」到「盖楼」,谁在重新定义AI大模型
2025-06-23 18:27:05
当智能变成平的
2025-02-28 09:02:36
算力的隐秘江湖:以前近10万的A100抢疯了,现在很多卡都没拆封
2025-01-23 21:28:28
上海:探索AI大模型助力科研范式创新 建立算力设施的开放和优惠使用机制
2025-05-22 14:36:35
超越国际标准!中国电信AI大模型发布:解决九章算术难题
2025-01-25 19:03:58
中国AI大模型APP月活TOP10出炉:DeepSeek第一 1.8亿遥遥领先
2025-03-26 08:42:06
Rokid Glasses AR+AI 眼镜升级:搭载多款 AI 大模型,支持手动配置
2025-03-10 17:48:15
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
国内首部中医药 AI 大模型评测标准发布,覆盖 13 个能力子域
2025-05-10 16:08:55
意言科技完成近千万元天使轮融资,徐汇科创投领投
2025-05-07 18:14:05
为什么说广告是AI大模型公司最现实的商业化选择?
2025-04-14 10:26:39
558 文章
264077 浏览
24小时热文
更多
-
2025-10-26 14:12:59 -
2025-10-26 13:13:50 -
2025-10-26 13:12:39