视觉理解模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

正文：11月26日，阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试SpatialBench榜单中位列前两名，超越Gemini 3、GPT-5.1等国际顶尖模型。SpatialBench是一项衡量多模态模型在空间、结构、路径等方面综合推理能力的新兴标准，对具身智能落地至关重要。Qwen3-VL和Qwen2.5-VL分别获得13.5分和12.9分，远超Gemini 3.0 Pro Preview（9.6分）和GPT-5.1（7.5分）。尽管AI整体表现仍不及人类基准线（约80分），但Qwen3-VL在视觉感知和多模态推理方面取得突破，可实现‘带图推理’和‘视觉编程’，并增强3D检测能力，助力机器人精准抓取物体。Qwen3-VL已开源多个版本，并上线千问APP供用户免费体验。

原文链接

灵感Phoenix

11-26 15:49:46

空间推理

视觉理解模型

阿里千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源视觉理解模型Qwen3-VL

2025年9月24日，在云栖大会上，阿里巴巴宣布开源新一代视觉理解模型Qwen3-VL。这一模型的发布标志着阿里在人工智能领域的进一步开放与创新，为开发者提供了强大的技术支持。Qwen3-VL具备先进的视觉理解能力，可广泛应用于图像识别、场景分析等领域。

原文链接

WisdomTrail

09-24 14:43:41

开源

视觉理解模型

阿里

分享至

打开微信扫一扫

内容投诉

生成图片

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

2025年9月，百度智能云千帆正式推出并开源全新视觉理解模型Qianfan-VL，包含3B、8B和70B三个版本，针对企业级多模态应用场景优化。该模型基于百度自研昆仑芯P800完成计算任务，支持单任务5000卡规模并行计算，性能达到SOTA水平。Qianfan-VL具备OCR全场景识别、复杂文档解析及数学解题等能力，在通用和垂直领域测试中表现优异。8B和70B模型还支持通过特殊token激活思维链能力，适用于复杂推理场景。即日起至10月10日，用户可免费体验8B和70B模型，更多详情可通过百度智能云千帆平台或GitHub获取。

原文链接

神经网络领航员

09-23 02:05:39

Qianfan-VL

百度智能云

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

百度智能云开源视觉理解模型 Qianfan-VL，基于自研昆仑芯 P800 芯片计算

9月22日，百度智能云千帆推出视觉理解模型Qianfan-VL并全面开源。该模型提供3B、8B和70B三种规格，针对企业级多模态场景深度优化，特别强化OCR、教育垂直场景等高频需求。基于自研昆仑芯P800完成计算，支持5000卡规模并行计算，在通用、OCR、数学解题等领域表现优异。即日起至10月10日，企业和开发者可免费体验8B、70B模型。Qianfan-VL具备多尺寸适配、思考推理能力及文档理解增强等特点，适用于复杂图表分析、文档智能化等场景。百度智能云表示将持续推动AI技术在各行业的落地应用。

原文链接

元界筑梦师

09-22 22:02:49

Qianfan-VL

昆仑芯P800

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini 衡宇白交发自川渝量子位 | 公众号 QbitAI 眼看蛇年将至，杭州依旧充满活力。阿里通义Qwen今日凌晨4点发布了视觉理解模型Qwen2.5-VL，包含3B、7B和72B三个版本。Qwen...

原文链接

量子思考者

01-28 10:42:11

GPT-4o-mini

Qwen2.5-VL

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力，可推理并使用工具，无需特定任务微调。在测试中，旗舰模型Qwen2.5-VL-72B-Instruct表现优异，涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini，Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知，简化网络结构，提升效率。

原文链接

星际Code流浪者

01-28 08:41:31

Qwen2.5-VL

视觉理解模型

长视频

分享至

打开微信扫一扫

内容投诉

生成图片

大模型降价潮再起

阿里云宣布第三轮大模型降价，通义千问视觉理解模型降价超80%，输入价格低至0.0015元/千tokens。此次降价被视为对字节跳动豆包视觉理解模型的回应，后者千tokens价格为3厘。自大模型浪潮兴起，厂商投入巨大，降价潮对资金实力较弱的企业冲击较大。此外，大模型企业通过巨额广告投放抢夺市场，如Kimi和豆包在三季度广告费用分别达1.5亿和2亿。尽管如此，提升用户留存仍是关键。互联网大厂如阿里和百度正寻求C端突围，阿里将通义App分拆并入智能信息事业群，百度则加强AI搜索布局。

原文链接

神经网络领航员

01-02 09:10:25

大模型降价潮

视觉理解模型

阿里云

分享至

打开微信扫一扫

内容投诉

生成图片

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

12月18日-19日，火山引擎FORCE原动力大会在上海举行，豆包视觉理解模型首次亮相并排名全球第二。该模型具备领先的内容识别、理解和推理能力，尤其在中文通用知识和文字识别方面表现突出。豆包视觉理解模型可识别图像中的物体、关系和场景，进行复杂推理，提取图片文本信息，并能细腻描述图像内容。此次大会还展示了豆包大模型家族的全面升级，包括音乐模型和文生图模型的新功能，以及豆包3D生成模型的首次亮相。

原文链接

智慧棱镜

12-23 15:58:35

大模型

火山引擎

豆包视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

火山引擎发布豆包视觉理解模型！龙头拿下连续两个20CM涨停，字节跳动旗下两大引擎A股合作商名单一览

火山引擎在12月18日的“2024火山引擎FORCE原动力大会·冬”上发布了豆包视觉理解模型，并升级了火山方舟、扣子和HiAgent三款平台产品。豆包大模型日均tokens使用量超4万亿，7个月内增长超33倍。全资子公司光云科技因获得“钻石级万有伙伴”称号，股价连续两日涨停。字节跳动旗下火山引擎和巨量引擎分别与多家A股上市公司合作，包括华宇软件、中科创达、乐鑫科技、光云科技等。巨量引擎整合多个平台流量资源，为广告主提供精准投放服务。

原文链接

数字墨迹

12-22 16:27:17

巨量引擎

火山引擎

豆包视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

视觉理解模型定价低于同行85% 火山引擎谭待回应：仍然能有合理的毛利

12月20日，针对字节豆包视觉理解模型定价低于同行85%，火山引擎总裁谭待回应称，3厘/千tokens的价格仍能保持合理毛利。他认为，2B业务若毛利为负，规模越大亏损越多，商业模式不可行。字节通过技术优化（如算法预训练、工程错峰混部、P/D推理分离、硬件优化）实现低价。谭待强调，技术领先才能提供优质服务。（财联社）

原文链接