杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

2025-01-28 10:42:11

量子思考者

发布在

科普

阅读：868

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

衡宇白交发自川渝量子位 | 公众号 QbitAI

眼看蛇年将至，杭州依旧充满活力。阿里通义Qwen今日凌晨4点发布了视觉理解模型Qwen2.5-VL，包含3B、7B和72B三个版本。Qwen2.5-VL在多项基准测试中表现出色，尤其在文档理解和视觉Agent操作方面。

7B模型Qwen2.5-VL-7B-Instruct在多个任务中超越GPT-4o-mini。通义Qwen团队称3B版本为“端侧AI的潜力股”，它在复杂场景下表现出色。

Qwen2.5-VL在文档和图表理解方面尤为突出，无需特定任务微调即可作为视觉Agent操作。全系列模型已开源，包括3B、7B、72B三种尺寸。

Qwen2.5-VL具备视觉定位、通用图像识别、文档解析、视觉Agent操作、视频理解和文字识别等能力。模型还增强了多场景、多语言的文本识别和信息抽取能力。

Qwen2.5-VL相比前代，提升了时间和空间感知能力，简化了网络结构。未来，Qwen团队将进一步提升问题解决和推理能力，整合更多模态，迈向综合全能模型。

Qwen2.5-VL全系列已开源于抱抱脸和魔搭社区。

原文链接

本文链接：https://kx.umi6.com/article/12291.html

转载请注明文章出处

GPT-4o-mini

Qwen2.5-VL

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

量子思考者

743 文章

840211 浏览

24小时热文