打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

2025-01-15 21:38:45

智能涌动

发布在

科普

阅读：887

标题：打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

奇月发自凹非寺量子位 | 公众号 QbitAI

很多大模型宣称能输出长达32K tokens，但实际如何？陈丹琦团队提出的新基准测试工具LONGPROC，检测长上下文模型处理复杂信息并生成回复的能力。实验发现，包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差，GPT-4o等闭源模型在8K tokens任务中也性能下降。例如，GPT-4o生成的旅行规划中出现不存在的航班信息。

LONGPROC基准测试包含6个生成任务，如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中，模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明，所有模型在长程序生成任务中均表现不佳，尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型，模型表现受任务类型影响，复杂任务表现更差。

该论文一作是清华校友Xi Ye，他将在2025年7月加入阿尔伯塔大学担任助理教授。

原文链接

本文链接：https://kx.umi6.com/article/11728.html

转载请注明文章出处

LONGPROC基准