标题:Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
国产大模型Qwen2.5系列再升级,新增成员Qwen2.5-Turbo,支持超长上下文并提升推理速度。
Qwen2.5-Turbo可处理高达100万token的上下文,相当于10部长篇小说或30000行代码。它能在45秒内总结69万token的主要内容,且在“大海捞针”实验中表现优异,能捕捉到所有细节。
该模型的推理速度显著提升,处理百万token时,首字返回时间从4.9分钟缩短至68秒,加速4.3倍。成本控制得当,每100万tokens仅需0.3元,意味着在相同成本下,Qwen2.5-Turbo可处理的token数量是GPT-4o-mini的3.6倍。
Qwen2.5-Turbo不仅在长文本处理上表现出色,还能快速掌握代码库信息,甚至在7篇论文的阅读与摘要生成中游刃有余。在RULER、LV-Eval、LongBench-Chat等复杂任务中,Qwen2.5-Turbo均取得佳绩,优于GPT-4o-mini。
此外,Qwen2.5-Turbo在短文本任务上同样表现优异,推理速度利用稀疏注意力机制提高了3.2-4.3倍。目前,Qwen2.5-Turbo的Demo已在HuggingFace和魔搭社区上线,API服务也已接入阿里云大模型服务平台,与OpenAI API兼容。
模型权重何时开源?阿里通义开源负责人表示,目前暂无开源计划,但正积极筹备中。
— 完 —
原文链接
本文链接:https://kx.umi6.com/article/8929.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
拆分Transformer注意力,韩国人要给大模型“踩油门”
2024-07-02 20:53:35
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理
2025-06-18 08:33:43
智谱发布新一代开源模型 极速版最高达到200tokens/秒
2025-04-15 08:25:16
OpenAI诈骗?GPT-4.1正式上线ChatGPT,网友实测却大呼失望
2025-05-16 13:50:56
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
2025-02-24 14:32:24
硅基流动上线 DeepSeek-V3.1,上下文升至 160K
2025-08-25 21:34:29
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024-07-02 15:00:28
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
2024-11-19 13:44:15
字节跳动Seed团队发布扩散语言模型 每秒推理速度2146 tokens
2025-08-01 09:24:01
MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o
2025-01-15 13:29:41
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
支持消费级显卡部署:腾讯混元 3D 世界模型宣布推出 Lite 版本,推理速度提升 3 倍以上且精度损失 <1%
2025-08-15 19:20:35
495 文章
178614 浏览
24小时热文
更多

-
2025-09-06 20:38:03
-
2025-09-06 19:37:51
-
2025-09-06 16:37:17