视觉理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

超越 GPT-5 Nano，阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线

10月15日，阿里通义宣布Qwen3-VL系列新增4B与8B两款Dense架构视觉理解模型，并开源上线。Qwen3-VL-8B在STEM、VQA、OCR等任务中表现优异，超越Gemini 2.5 Flash Lite和GPT-5 Nano，接近上一代超大模型Qwen2.5-VL-72B的性能；4B版本则更适合端侧部署，性价比突出。两款模型通过技术优化解决了小模型常见的“跷跷板”问题，在文本稳健性与视觉精准性上实现协同突破。新模型已上线魔搭社区和Hugging Face，同时提供FP8版本，供开发者使用。

原文链接

镜像现实MirageX

10-15 13:33:22

分享至

打开微信扫一扫

内容投诉

生成图片

豆包大模型1.6-vision正式发布

9月30日，火山引擎正式发布豆包大模型1.6-vision。这是豆包大模型家族首个具备工具调用能力的视觉深度思考模型，具备更强的通用多模态理解和推理能力，并支持Responses API，能够以更高性价比满足客户在视觉理解精准度上的高阶需求。相比上一版模型Doubao-1.5-thinking-vision-pro，新版本综合成本降低约50%。这一更新显著提升了性能和经济性，为用户带来更优体验。

原文链接

代码编织者

09-30 16:34:50

分享至

打开微信扫一扫

内容投诉

生成图片

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

分割、识别、解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配可以输出语义的「分割一切模型2.0」来了！一次交互即可实现「分割+识别+解释+描述」，同时支持图像、视频和长视频，文本&Mask同步输出！由港中文MMLab、港理工、北京大学等机构开源的PAM（Perceive...

原文链接

跨界思维

06-14 20:40:35

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题 RISEBench团队投稿，量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务，暴露出多模态模型在复杂图像编辑中的不足。上海人工智能实验室...

原文链接

阿达旻

05-30 15:52:41

分享至

打开微信扫一扫

内容投诉

生成图片

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

国产AI豆包推出新功能‘视频通话’，支持实时视频交流与互动。该功能不仅可准确报时，还能实时分析视频内容，如识别《甄嬛传》剧情并点评角色。此外，豆包能通过联网搜索快速解答问题，例如解析物理题或提供菜谱建议，甚至解读复杂学术论文。其核心技术依托于‘豆包·视觉理解模型’，具备强大内容识别、逻辑推理及视觉创作能力，为用户提供实用且有趣的交互体验。此功能已在多个场景验证可用性，展现出高效、精准的特点，未来有望在教育、生活等领域广泛应用。

原文链接

阿达旻

05-26 17:30:40

分享至

打开微信扫一扫

内容投诉

生成图片

豆包上线视频通话功能：支持实时问答互动，具备视觉理解能力

5月23日，豆包App正式上线视频通话功能，支持实时问答互动和视觉理解能力。用户可通过“打电话”界面发起视频通话，提问关于景点的历史背景、特色内容或路线规划等问题。该功能依托豆包最新的视觉理解模型，能融合视觉与语言输入进行深度思考，并接入联网搜索能力以提升对话准确性和时效性。此外，豆包视觉理解模型还可处理解微积分题、分析论文图表及诊断代码问题等复杂任务。

原文链接

阿达旻

05-23 19:20:17

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多