标题:Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
国产大模型Qwen2.5系列再升级,新增成员Qwen2.5-Turbo,支持超长上下文并提升推理速度。
Qwen2.5-Turbo可处理高达100万token的上下文,相当于10部长篇小说或30000行代码。它能在45秒内总结69万token的主要内容,且在“大海捞针”实验中表现优异,能捕捉到所有细节。
该模型的推理速度显著提升,处理百万token时,首字返回时间从4.9分钟缩短至68秒,加速4.3倍。成本控制得当,每100万tokens仅需0.3元,意味着在相同成本下,Qwen2.5-Turbo可处理的token数量是GPT-4o-mini的3.6倍。
Qwen2.5-Turbo不仅在长文本处理上表现出色,还能快速掌握代码库信息,甚至在7篇论文的阅读与摘要生成中游刃有余。在RULER、LV-Eval、LongBench-Chat等复杂任务中,Qwen2.5-Turbo均取得佳绩,优于GPT-4o-mini。
此外,Qwen2.5-Turbo在短文本任务上同样表现优异,推理速度利用稀疏注意力机制提高了3.2-4.3倍。目前,Qwen2.5-Turbo的Demo已在HuggingFace和魔搭社区上线,API服务也已接入阿里云大模型服务平台,与OpenAI API兼容。
模型权重何时开源?阿里通义开源负责人表示,目前暂无开源计划,但正积极筹备中。
— 完 —
原文链接
本文链接:https://kx.umi6.com/article/8929.html
转载请注明文章出处
相关推荐
.png)
换一换
交通运输部:要加快低空运输路空协同、人工智能等新兴产业标准布局
2025-02-08 09:18:45
DeepSeek 梁文锋回应冯骥赞誉(更新:回答真实性存疑)
2025-01-28 23:56:48
欧盟披露投建13家AI超级工厂细节
2025-04-10 18:05:57
435 文章
74142 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21