1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力,可推理并使用工具,无需特定任务微调。在测试中,旗舰模型Qwen2.5-VL-72B-Instruct表现优异,涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini,Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知,简化网络结构,提升效率。

原文链接
本文链接:https://kx.umi6.com/article/12284.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
继续狂飙!豆包“全家桶”迎来重磅更新 视觉理解、视频生成功能都来了
2024-12-18 13:31:32
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
豆包视觉理解模型发布
2024-12-18 10:30:52
24小时热文
更多
扫一扫体验小程序