视觉理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

标题：港中文 MMLab × 美团新研究：一个模型解决多种视觉推理任务正文：在大模型迈向通用视觉智能的趋势中，单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务，这对跨任务和跨模态能力提出了更高要求。然而，现有方法多依赖任务专化模型，难以实现...

原文链接

电子诗篇

12-17 11:39:31

多模态统一推理

强化学习优化

视觉理解任务

分享至

打开微信扫一扫

内容投诉

生成图片

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

正文：11月26日，阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试SpatialBench榜单中位列前两名，超越Gemini 3、GPT-5.1等国际顶尖模型。SpatialBench是一项衡量多模态模型在空间、结构、路径等方面综合推理能力的新兴标准，对具身智能落地至关重要。Qwen3-VL和Qwen2.5-VL分别获得13.5分和12.9分，远超Gemini 3.0 Pro Preview（9.6分）和GPT-5.1（7.5分）。尽管AI整体表现仍不及人类基准线（约80分），但Qwen3-VL在视觉感知和多模态推理方面取得突破，可实现‘带图推理’和‘视觉编程’，并增强3D检测能力，助力机器人精准抓取物体。Qwen3-VL已开源多个版本，并上线千问APP供用户免费体验。

原文链接

灵感Phoenix

11-26 15:49:46

空间推理

视觉理解模型

阿里千问

分享至

打开微信扫一扫

内容投诉

生成图片

超越 GPT-5 Nano，阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

10月15日，阿里通义宣布Qwen3-VL系列新增4B与8B两款Dense架构视觉理解模型，并开源上线。Qwen3-VL-8B在STEM、VQA、OCR等任务中表现优异，超越Gemini 2.5 Flash Lite和GPT-5 Nano，接近上一代超大模型Qwen2.5-VL-72B的性能；4B版本则更适合端侧部署，性价比突出。两款模型通过技术优化解决了小模型常见的“跷跷板”问题，在文本稳健性与视觉精准性上实现协同突破。新模型已上线魔搭社区和Hugging Face，同时提供FP8版本，供开发者使用。

原文链接

镜像现实MirageX

10-15 13:33:22

Qwen3-VL

开源

视觉理解

分享至

打开微信扫一扫

内容投诉

生成图片

豆包大模型1.6-vision正式发布

9月30日，火山引擎正式发布豆包大模型1.6-vision。这是豆包大模型家族首个具备工具调用能力的视觉深度思考模型，具备更强的通用多模态理解和推理能力，并支持Responses API，能够以更高性价比满足客户在视觉理解精准度上的高阶需求。相比上一版模型Doubao-1.5-thinking-vision-pro，新版本综合成本降低约50%。这一更新显著提升了性能和经济性，为用户带来更优体验。

原文链接

代码编织者

09-30 16:34:50

工具调用

视觉理解

豆包大模型

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源视觉理解模型Qwen3-VL

2025年9月24日，在云栖大会上，阿里巴巴宣布开源新一代视觉理解模型Qwen3-VL。这一模型的发布标志着阿里在人工智能领域的进一步开放与创新，为开发者提供了强大的技术支持。Qwen3-VL具备先进的视觉理解能力，可广泛应用于图像识别、场景分析等领域。

原文链接

WisdomTrail

09-24 14:43:41

开源

视觉理解模型

阿里

分享至

打开微信扫一扫

内容投诉

生成图片

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

2025年9月，百度智能云千帆正式推出并开源全新视觉理解模型Qianfan-VL，包含3B、8B和70B三个版本，针对企业级多模态应用场景优化。该模型基于百度自研昆仑芯P800完成计算任务，支持单任务5000卡规模并行计算，性能达到SOTA水平。Qianfan-VL具备OCR全场景识别、复杂文档解析及数学解题等能力，在通用和垂直领域测试中表现优异。8B和70B模型还支持通过特殊token激活思维链能力，适用于复杂推理场景。即日起至10月10日，用户可免费体验8B和70B模型，更多详情可通过百度智能云千帆平台或GitHub获取。

原文链接

神经网络领航员

09-23 02:05:39

Qianfan-VL

百度智能云

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

百度智能云开源视觉理解模型 Qianfan-VL，基于自研昆仑芯 P800 芯片计算

9月22日，百度智能云千帆推出视觉理解模型Qianfan-VL并全面开源。该模型提供3B、8B和70B三种规格，针对企业级多模态场景深度优化，特别强化OCR、教育垂直场景等高频需求。基于自研昆仑芯P800完成计算，支持5000卡规模并行计算，在通用、OCR、数学解题等领域表现优异。即日起至10月10日，企业和开发者可免费体验8B、70B模型。Qianfan-VL具备多尺寸适配、思考推理能力及文档理解增强等特点，适用于复杂图表分析、文档智能化等场景。百度智能云表示将持续推动AI技术在各行业的落地应用。

原文链接

元界筑梦师

09-22 22:02:49

Qianfan-VL

昆仑芯P800

视觉理解模型

分享至

打开微信扫一扫

内容投诉

生成图片

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

分割、识别、解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配可以输出语义的「分割一切模型2.0」来了！一次交互即可实现「分割+识别+解释+描述」，同时支持图像、视频和长视频，文本&Mask同步输出！由港中文MMLab、港理工、北京大学等机构开源的PAM（Perceive...

原文链接

跨界思维

06-14 20:40:35

SOTA

分割一切模型

视觉理解

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题 RISEBench团队投稿，量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务，暴露出多模态模型在复杂图像编辑中的不足。上海人工智能实验室...

原文链接

阿达旻

05-30 15:52:41

RISEBench

图像编辑

视觉理解

分享至

打开微信扫一扫

内容投诉

生成图片

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

国产AI豆包推出新功能‘视频通话’，支持实时视频交流与互动。该功能不仅可准确报时，还能实时分析视频内容，如识别《甄嬛传》剧情并点评角色。此外，豆包能通过联网搜索快速解答问题，例如解析物理题或提供菜谱建议，甚至解读复杂学术论文。其核心技术依托于‘豆包·视觉理解模型’，具备强大内容识别、逻辑推理及视觉创作能力，为用户提供实用且有趣的交互体验。此功能已在多个场景验证可用性，展现出高效、精准的特点，未来有望在教育、生活等领域广泛应用。

原文链接

阿达旻

05-26 17:30:40

视觉理解

视频通话

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多