最新研究显示,AI在高级历史题上的准确率仅46%,远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导,测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具,结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出,AI在处理技术性和复杂历史问题时存在困难,可能因训练数据偏见导致在某些地区表现更差。尽管如此,研究人员对未来AI辅助历史研究仍持乐观态度,正通过改进基准测试工具来提升模型性能。
原文链接
本文链接:https://kx.umi6.com/article/11907.html
转载请注明文章出处
相关推荐
换一换
研究实锤:别让大模型「想」太多,OpenAI o1准确率竟下降36.3%
2024-11-08 11:19:08
AI工具识别虚假新闻准确率达99%
2025-01-20 09:04:53
用AI解读动物情绪:准确率达88%!
2025-02-17 14:52:53
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
2025-06-10 14:47:54
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
2025-01-20 17:20:47
科大讯飞星火 4.0 Turbo 大模型发布:七大能力全面超越 GPT-4 Turbo
2024-10-24 11:11:45
科大讯飞发布讯飞星火大模型 V4.0,整体超越 GPT-4 Turbo
2024-06-27 21:51:07
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
2025-01-24 16:45:09
科大讯飞:星火 V4.0 大模型“对标 GPT-4 Turbo”,6 月 27 日发布多款产品
2024-06-24 23:28:42
研究:AI 医疗诊断平均准确率 52.1%,与非专家医生相当
2025-04-21 07:31:22
吃硬不吃软:宾夕法尼亚州立大学研究发现对 ChatGPT 无礼更能获得准确答案
2025-10-15 09:29:19
干家务一小时挣1000元,具身智能时代人类新岗位
2025-10-24 12:34:34
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
532 文章
253127 浏览
24小时热文
更多
-
2025-10-25 23:44:04 -
2025-10-25 22:43:52 -
2025-10-25 18:38:20