1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

奇月 发自 凹非寺量子位 | 公众号 QbitAI

很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实验发现,包括GPT-4o在内的顶级模型在生成复杂长文时表现不佳。开源模型在2K tokens任务中即表现差,GPT-4o等闭源模型在8K tokens任务中也性能下降。例如,GPT-4o生成的旅行规划中出现不存在的航班信息。

LONGPROC基准测试包含6个生成任务,如HTML到TSV、伪代码生成代码、路径遍历、Theory-of-Mind跟踪、Countdown游戏和旅行规划。实验中,模型需执行详细程序指令并生成结构化的长形式输出。实验结果表明,所有模型在长程序生成任务中均表现不佳,尤其是GPT-4o在8K tokens任务上。开源模型整体表现不及闭源模型,模型表现受任务类型影响,复杂任务表现更差。

该论文一作是清华校友Xi Ye,他将在2025年7月加入阿尔伯塔大学担任助理教授。

原文链接
本文链接:https://kx.umi6.com/article/11728.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
2024-12-23 15:56:25
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
2025-03-26 07:38:39
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
2025-01-15 21:38:45
2025世界智能产业博览会签约项目金额超2000亿元
2025-09-05 18:26:52
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
高盛:人人都在谈论AI 但目前AI仍难与公司利润直接挂钩
2025-09-05 18:25:52
巨头抢滩AIGC,美团、百度新AI实测来了
2025-09-05 09:14:51
Waymo将于今年秋季在圣何塞机场测试无人驾驶汽车
2025-09-05 09:16:13
美团将上线AI搜索功能:基于用户行为与需求进行智能匹配
2025-09-05 19:24:24
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
24小时热文
更多
扫一扫体验小程序