AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

2025-01-20 17:20:47

未来笔触

发布在

快讯

阅读：790

最新研究显示，AI在高级历史题上的准确率仅46%，远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导，测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具，结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出，AI在处理技术性和复杂历史问题时存在困难，可能因训练数据偏见导致在某些地区表现更差。尽管如此，研究人员对未来AI辅助历史研究仍持乐观态度，正通过改进基准测试工具来提升模型性能。

原文链接

本文链接：https://kx.umi6.com/article/11907.html

转载请注明文章出处

GPT-4 Turbo