最新研究显示,AI在高级历史题上的准确率仅46%,远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导,测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具,结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出,AI在处理技术性和复杂历史问题时存在困难,可能因训练数据偏见导致在某些地区表现更差。尽管如此,研究人员对未来AI辅助历史研究仍持乐观态度,正通过改进基准测试工具来提升模型性能。
原文链接
本文链接:https://kx.umi6.com/article/11907.html
转载请注明文章出处
相关推荐
.png)
换一换
研究:AI 医疗诊断平均准确率 52.1%,与非专家医生相当
2025-04-21 07:31:22
科大讯飞发布讯飞星火大模型 V4.0,整体超越 GPT-4 Turbo
2024-06-27 21:51:07
AI工具识别虚假新闻准确率达99%
2025-01-20 09:04:53
431 文章
72217 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01