阿里通义千问于1月27日宣布推出Qwen2.5-1M开源模型及推理框架,首次将上下文扩展至100万Tokens。Qwen团队开源了基于vLLM的推理框架,并集成稀疏注意力方法,使处理速度提升3到7倍。Qwen2.5-1M系列模型在长上下文任务中表现出色,尤其在超过64K长度的任务中优于128K版本。此外,Qwen2.5-14B-Instruct-1M模型在多个数据集上超越GPT-4o-mini,而在短文本任务上则与GPT-4o-mini性能相近。模型和详细技术报告现已开放获取。
原文链接
本文链接:https://kx.umi6.com/article/12218.html
转载请注明文章出处
相关推荐
.png)
换一换
Meta 训练 Llama 3 遭遇频繁故障:16384 块 H100 GPU 训练集群每 3 小时“罢工”一次
2024-07-28 20:12:58
飞书发布知识问答等多款AI产品,让企业拥有懂自己的“豆包”
2025-07-09 14:07:39
Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守
2025-02-25 20:09:24
412 文章
66316 浏览
24小时热文
更多

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54