1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

最新研究显示,AI在高级历史题上的准确率仅46%,远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导,测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具,结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出,AI在处理技术性和复杂历史问题时存在困难,可能因训练数据偏见导致在某些地区表现更差。尽管如此,研究人员对未来AI辅助历史研究仍持乐观态度,正通过改进基准测试工具来提升模型性能。

原文链接
本文链接:https://kx.umi6.com/article/11907.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
用AI解读动物情绪:准确率达88%!
2025-02-17 14:52:53
研究实锤:别让大模型「想」太多,OpenAI o1准确率竟下降36.3%
2024-11-08 11:19:08
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
2025-01-24 16:45:09
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
2025-06-10 14:47:54
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
2025-01-20 17:20:47
科大讯飞星火 4.0 Turbo 大模型发布:七大能力全面超越 GPT-4 Turbo
2024-10-24 11:11:45
研究:AI 医疗诊断平均准确率 52.1%,与非专家医生相当
2025-04-21 07:31:22
AI工具识别虚假新闻准确率达99%
2025-01-20 09:04:53
科大讯飞发布讯飞星火大模型 V4.0,整体超越 GPT-4 Turbo
2024-06-27 21:51:07
科大讯飞:星火 V4.0 大模型“对标 GPT-4 Turbo”,6 月 27 日发布多款产品
2024-06-24 23:28:42
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-05 21:25:03
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
24小时热文
更多
扫一扫体验小程序