Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,在百万级别长文本输入时可提升近7倍速度。
模型在长上下文任务如Passkey Retrieval中表现出色,7B模型仅出现少量错误。与之前的128K版本相比,新模型在长文本任务中表现更优,特别是在超过64K长度的任务中。Qwen2.5-14B-Instruct-1M在多个数据集上优于Qwen2.5-Turbo和GPT-4o-mini。
Qwen新模型通过长上下文训练、长度外推和稀疏注意力机制三大步骤炼成。团队采用逐步扩展长度的方法,从4K增加到256K,同时使用Adjusted Base Frequency方案。此外,引入Dual Chunk Attention (DCA)和基于MInference的稀疏注意力优化,显著提升了推理速度。
项目已提供在线体验地址,感兴趣的朋友可以前往尝试。
原文链接
本文链接:https://kx.umi6.com/article/12252.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
2025-04-15 15:34:47
DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2025-02-18 17:24:09
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
2025-06-10 16:50:15
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2025-02-21 14:53:27
支持 100 万 Tokens 上下文,阿里通义千问推出 Qwen2.5-1M 开源模型
2025-01-27 08:22:08
DeepSeek新论文再次引发热议,它说了什么?
2025-02-19 16:53:40
阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型:支持 100 万 tokens 上下文,处理时间缩短至 68 秒
2024-11-19 14:52:17
DeepSeek下一代技术提前曝光
2025-07-31 09:02:46
腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1
2024-11-07 10:16:21
阿里云通义开源首个长文本新模型Qwen2.5-1M
2025-01-27 11:31:21
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
2025-01-27 14:30:40
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
2024-12-11 09:21:31
480 文章
178160 浏览
24小时热文
更多

-
2025-09-06 20:38:03
-
2025-09-06 19:37:51
-
2025-09-06 16:37:17