面壁科技发布MiniCPM-V 2.6,这款端侧大模型在多模态核心能力上实现了对GPT-4V的全面超越,包括单图、多图及视频理解能力。MiniCPM-V 2.6在端侧性能上对标GPT-4V,取得了20B以下参数下的SOTA成绩。在知识密度上,得益于视觉token数量减少30%,MiniCPM-V 2.6的单token编码像素密度是GPT-4V的两倍。它还首次在端侧实现了实时视频理解、多图联合理解和多图ICL能力。量化后端侧内存仅需6GB,推理速度达18 tokens/s,相比上代模型快33%,并支持多种语言。MiniCPM-V 2.6在实时视频理解、多图联合理解和复杂推理能力上展现出强大性能,超越了GPT-4V。此外,它在单图理解、多图理解及视频理解上均取得SOTA成绩,知识压缩率高于GPT-4o。在OCRBench和Object HalBench评测中,MiniCPM-V 2.6在OCR性能和幻觉水平上表现出色,优于多个商用模型。面壁通过统一高清视觉架构,实现了多模态能力的共享和优化,使得MiniCPM-V 2.6在多个视觉理解场景中表现出色。
原文链接
本文链接:https://kx.umi6.com/article/4677.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
459 文章
83930 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13