综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,Google联合Kaggle发布FACTS基准测试套件,首次系统评估AI模型的事实准确性。结果显示,包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的主流AI模型准确率均未突破70%,意味着每3次输出可能有1次错误。测试涵盖四大维度:内部知识、搜索能力、多模态解读和上下文忠实度。其中,多模态任务表现最差,领头模型Gemini 2.5 Pro仅达46.9%。研究强调,AI在关键场景中需人工审核,尤其在法律、金融、医疗等领域。FACTS测试或将成为企业采购参考标准,提示技术领导者根据具体需求选择模型,同时揭示AI仍处'信任但验证'阶段。
原文链接
加载更多
暂无内容