面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

2024-08-07 12:28:53

灵感Phoenix

发布在

快讯

阅读：950

面壁智能于8月7日宣布开源MiniCPM-V 2.6模型，该模型在端侧AI多模态能力上声称已达到与GPT-4V相匹敌的水平。MiniCPM-V 2.6在参数量仅为8B的情况下，取得了20B以下的单图、多图、视频理解的顶尖成绩。其核心亮点包括： 1. **端侧多模态融合**：首次在端侧实现了单图、多图、视频理解等多模态能力，超越了GPT-4V，与Gemini 1.5 Pro和GPT-4o mini并驾齐驱。 2. **功能拓展至端侧**：引入了实时视频理解、多图联合理解、多图视觉类比学习、多图OCR等创新功能。 3. **高密度编码技术**：在单token编码像素密度上，相较于GPT-4o，实现了两倍的提升。 4. **优化端侧体验**：量化后的模型仅需6GB内存即可运行，端侧推理速度提升33%，并支持llama.cpp、ollama、vllm等多种推理方式，兼容多种语言。 5. **统一高效框架**：OCR能力继承了小钢炮系列的优秀传统，同时扩展到了单图、多图、视频理解领域。此模型的开源，为AI领域带来了新的突破，有望推动端侧AI多模态技术的发展，促进相关应用的创新与普及。感兴趣的开发者和研究者可访问GitHub或HuggingFace平台获取更多信息及源代码。

原文链接

本文链接：https://kx.umi6.com/article/4683.html

转载请注明文章出处

GPT-4V