1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:1万tokens成大模型长文本“智商”分水岭

正文:
当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5 Flash则表现为下降后放缓再下降。最终,所有模型在1万tokens时准确率仅剩50%。这意味着,大模型处理长文本时的可靠性会因输入长度增加而显著下降,且不同模型的“失智”节点各异。

这是Chroma团队通过升级版“大海捞针”(NIAH)测试得出的结论。他们评估了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等18个主流大模型,发现随着输入长度增加,模型性能普遍下降。研究还首次揭示,这种下降受语义特征、干扰信息及文本结构等因素影响,且不同模型对这些因素的敏感度存在差异。

实验设计了四项对照任务,核心原则是保持任务复杂度不变,仅调整输入长度。结果显示:
1. 输入长度是性能下降的核心变量,无论任务简单与否,长文本处理能力均受影响;
2. 针-问题语义相似度低或干扰信息多会加剧性能衰减;
3. 连贯文本比打乱结构更易导致性能下降;
4. 不同模型表现差异明显,但整体稳定性均较差。

例如,在针-问题相似度实验中,低相似度组在1万tokens时准确率仅为40%-60%,远低于高相似度组的60%-80%。干扰信息实验显示,加入多个干扰项后,模型准确率比基线低30%-50%。此外,连贯文本结构使部分模型准确率降至30%-40%,而打乱结构则维持在50%-60%。

尽管大模型的上下文窗口不断扩展,但其性能并非均匀一致。研究建议用户通过明确指令、保存上下文等方式缓解长文本处理中的缺陷。

Chroma团队专注于开发开源AI应用数据库,旨在简化LLM应用构建,并计划推出免费技术预览。代码已开源,感兴趣者可复现研究结果。

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/21920.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型开始打王者荣耀了
2025-09-02 12:31:33
三家混战,大模型重回2023
2025-08-03 11:35:50
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
2025-06-17 13:23:27
大模型套壳往事
2025-07-14 18:26:03
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
WAIC 2025倒计时30天!40+大模型、50+AI终端、60+智能机器人即将重磅登场
2025-06-26 17:24:23
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
英伟达新研究:小模型才是智能体的未来
2025-08-19 08:54:39
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
24小时热文
更多
扫一扫体验小程序