Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,在百万级别长文本输入时可提升近7倍速度。
模型在长上下文任务如Passkey Retrieval中表现出色,7B模型仅出现少量错误。与之前的128K版本相比,新模型在长文本任务中表现更优,特别是在超过64K长度的任务中。Qwen2.5-14B-Instruct-1M在多个数据集上优于Qwen2.5-Turbo和GPT-4o-mini。
Qwen新模型通过长上下文训练、长度外推和稀疏注意力机制三大步骤炼成。团队采用逐步扩展长度的方法,从4K增加到256K,同时使用Adjusted Base Frequency方案。此外,引入Dual Chunk Attention (DCA)和基于MInference的稀疏注意力优化,显著提升了推理速度。
项目已提供在线体验地址,感兴趣的朋友可以前往尝试。
原文链接
本文链接:https://kx.umi6.com/article/12252.html
转载请注明文章出处
相关推荐
.png)
换一换
广东卫健委:全面上线人工智能辅助影像阅片系统,提高诊断质量和效率
2025-07-11 17:45:18
科学家尝试用 AI 开发世界上第一个虚拟人类细胞
2024-12-30 14:20:33
机构:2024年Q3全球云基础设施服务支出同比增长21%
2024-11-19 10:55:10
420 文章
73510 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21