1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

奇月 发自 凹非寺量子位 | 公众号 QbitAI

很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。

LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。

该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。

原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
2025-01-15 21:38:45
OpenAI最快将于下周二发布GPT-5.2
2025-12-06 07:18:55
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
国产滤波器企业新声半导体完成2.69亿元C轮融资
2025-12-08 18:39:38
罗永浩谈豆包手机被部分App封杀:事情比想象的要复杂得多
2025-12-08 11:26:56
硅片,洗牌进行时
2025-12-07 14:30:16
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
黄仁勋:AI末日永远不会发生
2025-12-08 10:21:57
西北首台量子计算机落地西安
2025-12-07 08:18:21
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
苹果陷AI困局 iPhone用户出现倒戈潮
2025-12-07 16:37:13
24小时热文
更多
扫一扫体验小程序