1万tokens是检验长文本的新基准，超过后18款大模型集体失智

2025-07-17 15:23:24

灵感Phoenix

发布在

科普

阅读：565

标题：1万tokens成大模型长文本“智商”分水岭

正文：
当上下文长度扩展至1万tokens，主流大模型的性能集体“失智”，且下降并非均匀，而是在某些节点出现断崖式下跌。例如，Claude Sonnet 4在1000tokens后准确率从90%降至60%，而GPT-4.1和Gemini 2.5 Flash则表现为下降后放缓再下降。最终，所有模型在1万tokens时准确率仅剩50%。这意味着，大模型处理长文本时的可靠性会因输入长度增加而显著下降，且不同模型的“失智”节点各异。

这是Chroma团队通过升级版“大海捞针”（NIAH）测试得出的结论。他们评估了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等18个主流大模型，发现随着输入长度增加，模型性能普遍下降。研究还首次揭示，这种下降受语义特征、干扰信息及文本结构等因素影响，且不同模型对这些因素的敏感度存在差异。

实验设计了四项对照任务，核心原则是保持任务复杂度不变，仅调整输入长度。结果显示：
1. 输入长度是性能下降的核心变量，无论任务简单与否，长文本处理能力均受影响；
2. 针-问题语义相似度低或干扰信息多会加剧性能衰减；
3. 连贯文本比打乱结构更易导致性能下降；
4. 不同模型表现差异明显，但整体稳定性均较差。

例如，在针-问题相似度实验中，低相似度组在1万tokens时准确率仅为40%-60%，远低于高相似度组的60%-80%。干扰信息实验显示，加入多个干扰项后，模型准确率比基线低30%-50%。此外，连贯文本结构使部分模型准确率降至30%-40%，而打乱结构则维持在50%-60%。

尽管大模型的上下文窗口不断扩展，但其性能并非均匀一致。研究建议用户通过明确指令、保存上下文等方式缓解长文本处理中的缺陷。

Chroma团队专注于开发开源AI应用数据库，旨在简化LLM应用构建，并计划推出免费技术预览。代码已开源，感兴趣者可复现研究结果。

— 完 —

原文链接

本文链接：https://kx.umi6.com/article/21920.html

转载请注明文章出处

大模型