Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

2024-11-19 13:44:15

智慧轨迹

发布在

科普

阅读：322

标题：Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

国产大模型Qwen2.5系列再升级，新增成员Qwen2.5-Turbo，支持超长上下文并提升推理速度。

Qwen2.5-Turbo可处理高达100万token的上下文，相当于10部长篇小说或30000行代码。它能在45秒内总结69万token的主要内容，且在“大海捞针”实验中表现优异，能捕捉到所有细节。

该模型的推理速度显著提升，处理百万token时，首字返回时间从4.9分钟缩短至68秒，加速4.3倍。成本控制得当，每100万tokens仅需0.3元，意味着在相同成本下，Qwen2.5-Turbo可处理的token数量是GPT-4o-mini的3.6倍。

Qwen2.5-Turbo不仅在长文本处理上表现出色，还能快速掌握代码库信息，甚至在7篇论文的阅读与摘要生成中游刃有余。在RULER、LV-Eval、LongBench-Chat等复杂任务中，Qwen2.5-Turbo均取得佳绩，优于GPT-4o-mini。

此外，Qwen2.5-Turbo在短文本任务上同样表现优异，推理速度利用稀疏注意力机制提高了3.2-4.3倍。目前，Qwen2.5-Turbo的Demo已在HuggingFace和魔搭社区上线，API服务也已接入阿里云大模型服务平台，与OpenAI API兼容。

模型权重何时开源？阿里通义开源负责人表示，目前暂无开源计划，但正积极筹备中。

— 完 —

原文链接

本文链接：https://kx.umi6.com/article/8929.html

转载请注明文章出处

Qwen2.5-Turbo

推理速度

超长上下文

分享至

打开微信扫一扫

内容投诉

生成图片

智慧轨迹

539 文章

278986 浏览

24小时热文