1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini

衡宇 白交 发自 川渝 量子位 | 公众号 QbitAI

眼看蛇年将至,杭州依旧充满活力。阿里通义Qwen今日凌晨4点发布了视觉理解模型Qwen2.5-VL,包含3B、7B和72B三个版本。Qwen2.5-VL在多项基准测试中表现出色,尤其在文档理解和视觉Agent操作方面。

7B模型Qwen2.5-VL-7B-Instruct在多个任务中超越GPT-4o-mini。通义Qwen团队称3B版本为“端侧AI的潜力股”,它在复杂场景下表现出色。

Qwen2.5-VL在文档和图表理解方面尤为突出,无需特定任务微调即可作为视觉Agent操作。全系列模型已开源,包括3B、7B、72B三种尺寸。

Qwen2.5-VL具备视觉定位、通用图像识别、文档解析、视觉Agent操作、视频理解和文字识别等能力。模型还增强了多场景、多语言的文本识别和信息抽取能力。

Qwen2.5-VL相比前代,提升了时间和空间感知能力,简化了网络结构。未来,Qwen团队将进一步提升问题解决和推理能力,整合更多模态,迈向综合全能模型。

Qwen2.5-VL全系列已开源于抱抱脸和魔搭社区。

原文链接
本文链接:https://kx.umi6.com/article/12291.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型降价潮再起
2025-01-02 09:10:25
百度智能云开源视觉理解模型 Qianfan-VL,基于自研昆仑芯 P800 芯片计算
2025-09-22 22:02:49
杀疯了!字节豆包视觉理解模型价格下降85%,火山引擎谭待:现在不太关注市场竞争
2024-12-18 17:35:19
阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力
2025-01-28 08:41:31
豆包视觉理解模型发布
2024-12-18 10:30:52
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
2025-09-23 02:05:39
杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini
2025-01-28 10:42:11
超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军
2025-11-26 15:49:46
继续狂飙!豆包“全家桶”迎来重磅更新 视觉理解、视频生成功能都来了
2024-12-18 13:31:32
视觉理解模型定价低于同行85% 火山引擎谭待回应:仍然能有合理的毛利
2024-12-20 11:28:56
4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密
2025-01-02 11:13:09
阿里开源视觉理解模型Qwen3-VL
2025-09-24 14:43:41
美国AI财大气粗 国产AI学不了:Kimi仅用了1%算力就超越主流闭源
2026-01-22 22:14:12
24小时热文
更多
扫一扫体验小程序