阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

2025-01-28 08:41:31

星际Code流浪者

发布在

快讯

阅读：1012

阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力，可推理并使用工具，无需特定任务微调。在测试中，旗舰模型Qwen2.5-VL-72B-Instruct表现优异，涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini，Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知，简化网络结构，提升效率。

原文链接

本文链接：https://kx.umi6.com/article/12284.html

转载请注明文章出处

Qwen2.5-VL