历史考试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

最新研究显示，AI在高级历史题上的准确率仅46%，远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导，测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具，结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出，AI在处理技术性和复杂历史问题时存在困难，可能因训练数据偏见导致在某些地区表现更差。尽管如此，研究人员对未来AI辅助历史研究仍持乐观态度，正通过改进基准测试工具来提升模型性能。

原文链接