1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

奇月 发自 凹非寺量子位 | 公众号 QbitAI

很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。

LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。

该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。

原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
祖国人公开反对AI!称AI打心底反感人类
2026-06-07 14:40:43
港股鞋王千百度,一夜完成AI数据公司转型
2026-06-06 12:44:02
2026年全国统一高考今天开考:新增AI监考员、智能眼镜带入即作弊
2026-06-07 07:21:05
连GitLab都开始裁程序员了
2026-06-04 17:12:53
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
100亿砸向人形,不如先让10万台机器狗走进家庭
2026-06-05 16:04:29
大模型发展三年半,AI圈终于等来了一场“不要大厂,只赌脑洞”的比赛
2026-06-06 15:53:13
让矩阵归模拟,让逻辑归数字!这家中国团队重新定义了计算机
2026-06-08 13:25:50
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
2026-06-08 11:27:33
买车要多花6000元!车规存储芯片疯涨180%:全被AI抢走了
2026-06-08 19:42:13
华为多名AI人才离职创业!90后 "盘古少帅" 新公司估值达1亿美元
2026-06-04 12:03:27
24小时热文
更多
扫一扫体验小程序