Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

2025-01-27 14:30:40

数码游侠

发布在

科普

阅读：754

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

谈到大模型的“国货之光”，阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，已实现稳定超越GPT-4o-mini，在百万级别长文本输入时可提升近7倍速度。

模型在长上下文任务如Passkey Retrieval中表现出色，7B模型仅出现少量错误。与之前的128K版本相比，新模型在长文本任务中表现更优，特别是在超过64K长度的任务中。Qwen2.5-14B-Instruct-1M在多个数据集上优于Qwen2.5-Turbo和GPT-4o-mini。

Qwen新模型通过长上下文训练、长度外推和稀疏注意力机制三大步骤炼成。团队采用逐步扩展长度的方法，从4K增加到256K，同时使用Adjusted Base Frequency方案。此外，引入Dual Chunk Attention (DCA)和基于MInference的稀疏注意力优化，显著提升了推理速度。

项目已提供在线体验地址，感兴趣的朋友可以前往尝试。

原文链接

本文链接：https://kx.umi6.com/article/12252.html

转载请注明文章出处

Qwen2.5-1M