标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
奇月 发自 凹非寺量子位 | 公众号 QbitAI
很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。
LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。
该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。
原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
相关推荐
换一换
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进
2026-04-24 18:24:51
中信证券:物理AI蓬勃发展 场景落地有望提速
2026-04-24 09:03:22
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
AI太烧钱!Meta裁员8000人再冻6000职位
2026-04-24 16:19:57
阿里云百炼上线DeepSeek-V4
2026-04-24 20:31:56
荣耀WIN游戏本等多款新品正式发布,荣耀PC家族全面爆发
2026-04-24 17:20:32
斑马智能接入支付宝AI付车载版 打通AI座舱“支付即服务”
2026-04-24 17:25:23
日本紧急成立网络安全小组 应对Mythos引发的金融系统漏洞危机
2026-04-24 18:29:17
德银警示氦气供应风险
2026-04-24 17:27:38
美格智能发布新一代中央计算架构5G舱联AI模组
2026-04-24 15:18:33
昆仑万维2025年营收同比增长44.78%至81.98亿 “4+3”战略构建AI Native平台经济新范式
2026-04-23 21:31:07
728 文章
591464 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38