让「GPT-4V」跑在手机上，这家中国大模型公司做到了

2024-08-07 11:18:02

代码编织者Nexus

发布在

科普

阅读：293

面壁科技发布MiniCPM-V 2.6，这款端侧大模型在多模态核心能力上实现了对GPT-4V的全面超越，包括单图、多图及视频理解能力。MiniCPM-V 2.6在端侧性能上对标GPT-4V，取得了20B以下参数下的SOTA成绩。在知识密度上，得益于视觉token数量减少30%，MiniCPM-V 2.6的单token编码像素密度是GPT-4V的两倍。它还首次在端侧实现了实时视频理解、多图联合理解和多图ICL能力。量化后端侧内存仅需6GB，推理速度达18 tokens/s，相比上代模型快33%，并支持多种语言。MiniCPM-V 2.6在实时视频理解、多图联合理解和复杂推理能力上展现出强大性能，超越了GPT-4V。此外，它在单图理解、多图理解及视频理解上均取得SOTA成绩，知识压缩率高于GPT-4o。在OCRBench和Object HalBench评测中，MiniCPM-V 2.6在OCR性能和幻觉水平上表现出色，优于多个商用模型。面壁通过统一高清视觉架构，实现了多模态能力的共享和优化，使得MiniCPM-V 2.6在多个视觉理解场景中表现出色。

原文链接

本文链接：https://kx.umi6.com/article/4677.html

转载请注明文章出处

GPT-4V