标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
奇月 发自 凹非寺量子位 | 公众号 QbitAI
很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。
LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。
该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。
原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
相关推荐
.png)
换一换
开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集
2024-09-07 00:50:30
50多家企业1000多个岗位“招才” AI岗位需求增长明显|直击2024外滩大会
2024-09-07 21:22:40
百图生科推出xTrimo V3生命科学基础大模型 引领生命科学大模型突破2000亿参数水平
2024-10-28 11:43:51
456 文章
64182 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21