标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
奇月 发自 凹非寺量子位 | 公众号 QbitAI
很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。
LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。
该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。
原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
相关推荐
换一换
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
2025-01-15 21:38:45
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
工信部:将发布人形机器人与具身智能综合标准化体系建设指南
2026-01-21 12:07:04
马斯克罕见低头:开源????推荐算法,自嘲“很烂”不过未来月更
2026-01-21 13:07:44
凸显新型国际财经媒体优势 界面财联社旗下财跃星辰AI决策系统入选上海开源典型案例
2026-01-22 12:52:54
广东:支持各地市稳妥有序开放自动驾驶多场景道路测试应用 扩大高级别自动驾驶应用区域
2026-01-21 17:22:28
贝莱德CEO称人工智能领域不存在泡沫
2026-01-22 23:18:34
全球首个AI美女演员诞生!星爵演员破大防怒喷
2026-01-21 23:30:59
快手可灵AI月活突破1200万
2026-01-21 15:18:50
34GB大礼包 AMD显卡AI生产力来了:ComfyUI等5大软件一键部署
2026-01-22 23:17:29
苏州“十五五”规划建议:推进人工智能驱动的新型科研范式、技术研发、工程实现、产品落地一体化协同发展 积极部署人工智能芯片、量子等创新应用技术
2026-01-21 20:27:59
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
669 文章
443399 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34