Qwen2.5-1M - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini 谈到大模型的“国货之光”，阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，已实现稳定超越GPT-4o-mini，...

原文链接

数码游侠

01-27 14:30:40

Qwen2.5-1M

稀疏注意力机制

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云通义开源首个长文本新模型Qwen2.5-1M

阿里云通义开源了Qwen2.5-1M模型，支持100万Tokens上下文，推出7B和14B两种尺寸。该模型在处理百万级别长文本输入时，通过开源推理框架实现了近7倍的提速。100万Tokens相当于10本长篇小说、150小时演讲稿或3万行代码。（《科创板日报》27日讯）

原文链接

WisdomTrail

01-27 11:31:21

Qwen2.5-1M

长文本

阿里云

分享至

打开微信扫一扫

内容投诉

生成图片

支持 100 万 Tokens 上下文，阿里通义千问推出 Qwen2.5-1M 开源模型

阿里通义千问于1月27日宣布推出Qwen2.5-1M开源模型及推理框架，首次将上下文扩展至100万Tokens。Qwen团队开源了基于vLLM的推理框架，并集成稀疏注意力方法，使处理速度提升3到7倍。Qwen2.5-1M系列模型在长上下文任务中表现出色，尤其在超过64K长度的任务中优于128K版本。此外，Qwen2.5-14B-Instruct-1M模型在多个数据集上超越GPT-4o-mini，而在短文本任务上则与GPT-4o-mini性能相近。模型和详细技术报告现已开放获取。

原文链接