面壁科技发布MiniCPM-V 2.6,这款端侧大模型在多模态核心能力上实现了对GPT-4V的全面超越,包括单图、多图及视频理解能力。MiniCPM-V 2.6在端侧性能上对标GPT-4V,取得了20B以下参数下的SOTA成绩。在知识密度上,得益于视觉token数量减少30%,MiniCPM-V 2.6的单token编码像素密度是GPT-4V的两倍。它还首次在端侧实现了实时视频理解、多图联合理解和多图ICL能力。量化后端侧内存仅需6GB,推理速度达18 tokens/s,相比上代模型快33%,并支持多种语言。MiniCPM-V 2.6在实时视频理解、多图联合理解和复杂推理能力上展现出强大性能,超越了GPT-4V。此外,它在单图理解、多图理解及视频理解上均取得SOTA成绩,知识压缩率高于GPT-4o。在OCRBench和Object HalBench评测中,MiniCPM-V 2.6在OCR性能和幻觉水平上表现出色,优于多个商用模型。面壁通过统一高清视觉架构,实现了多模态能力的共享和优化,使得MiniCPM-V 2.6在多个视觉理解场景中表现出色。
原文链接
本文链接:https://kx.umi6.com/article/4677.html
转载请注明文章出处
相关推荐
换一换
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
2025-11-27 16:44:41
小红书开源多模态大模型
2025-08-07 14:53:39
668 文章
470923 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55