2025年12月,Google联合Kaggle发布FACTS基准测试套件,首次系统评估AI模型的事实准确性。结果显示,包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的主流AI模型准确率均未突破70%,意味着每3次输出可能有1次错误。测试涵盖四大维度:内部知识、搜索能力、多模态解读和上下文忠实度。其中,多模态任务表现最差,领头模型Gemini 2.5 Pro仅达46.9%。研究强调,AI在关键场景中需人工审核,尤其在法律、金融、医疗等领域。FACTS测试或将成为企业采购参考标准,提示技术领导者根据具体需求选择模型,同时揭示AI仍处'信任但验证'阶段。
原文链接
本文链接:https://kx.umi6.com/article/30125.html
转载请注明文章出处
相关推荐
换一换
告别AI“跷跷板”,商汤“换道超车”
2025-01-16 11:52:01
OpenAI 首次在瑞士设立办公室,招募翟晓华等 3 名谷歌工程师推进研发多模态 AI 模型
2024-12-06 10:19:31
苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana
2025-09-27 21:45:24
产业趋势不断验证 AI应用方向活跃度有望持续
2024-11-23 06:18:29
联发科新一代天玑旗舰芯片针对谷歌 Gemini Nano 多模态 AI 进行优化,支持图像和音频处理
2024-10-09 11:35:46
一周六连发!昆仑万维将多模态AI卷到了新高度
2025-08-17 18:38:51
百度旗下小度科技发布多模态 AI 助手“超能小度”,数千万台设备免费升级
2025-11-13 23:24:31
AI 的终点不是对话框,这家公司想让真实世界成为AI 的提示词
2025-08-20 10:12:38
OpenAI 从谷歌 DeepMind 挖角三名高级工程师,专注于多模态 AI 研发
2024-12-04 11:34:21
多模态AI黑马刷榜后再造神器:一个产品搞定图片视频播客生成,自带百种特效,大牛梅涛团队出品
2025-06-24 22:21:51
取代人类员工,AI需要多久?
2024-08-05 10:02:31
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
2025-04-25 15:13:42
三星多模态 AI 模型 Gauss 2 登场,赋能 Galaxy 智能生态
2024-11-21 13:33:21
693 文章
483409 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18