Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,在百万级别长文本输入时可提升近7倍速度。
模型在长上下文任务如Passkey Retrieval中表现出色,7B模型仅出现少量错误。与之前的128K版本相比,新模型在长文本任务中表现更优,特别是在超过64K长度的任务中。Qwen2.5-14B-Instruct-1M在多个数据集上优于Qwen2.5-Turbo和GPT-4o-mini。
Qwen新模型通过长上下文训练、长度外推和稀疏注意力机制三大步骤炼成。团队采用逐步扩展长度的方法,从4K增加到256K,同时使用Adjusted Base Frequency方案。此外,引入Dual Chunk Attention (DCA)和基于MInference的稀疏注意力优化,显著提升了推理速度。
项目已提供在线体验地址,感兴趣的朋友可以前往尝试。
原文链接
本文链接:https://kx.umi6.com/article/12252.html
转载请注明文章出处
相关推荐
换一换
DeepSeek新发布
2025-09-29 22:15:21
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
2024-12-11 09:21:31
阿里云通义开源首个长文本新模型Qwen2.5-1M
2025-01-27 11:31:21
智谱GLM-5技术全公开!完全适配华为等国产芯片,美国网友酸了
2026-02-23 15:59:51
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
2026-01-13 13:35:04
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
DeepSeek新论文再次引发热议,它说了什么?
2025-02-19 16:53:40
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
2025-04-15 15:34:47
腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1
2024-11-07 10:16:21
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
2025-09-29 19:14:08
731 文章
650843 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13