面壁智能于8月7日宣布开源MiniCPM-V 2.6模型,该模型在端侧AI多模态能力上声称已达到与GPT-4V相匹敌的水平。MiniCPM-V 2.6在参数量仅为8B的情况下,取得了20B以下的单图、多图、视频理解的顶尖成绩。其核心亮点包括: 1. **端侧多模态融合**:首次在端侧实现了单图、多图、视频理解等多模态能力,超越了GPT-4V,与Gemini 1.5 Pro和GPT-4o mini并驾齐驱。 2. **功能拓展至端侧**:引入了实时视频理解、多图联合理解、多图视觉类比学习、多图OCR等创新功能。 3. **高密度编码技术**:在单token编码像素密度上,相较于GPT-4o,实现了两倍的提升。 4. **优化端侧体验**:量化后的模型仅需6GB内存即可运行,端侧推理速度提升33%,并支持llama.cpp、ollama、vllm等多种推理方式,兼容多种语言。 5. **统一高效框架**:OCR能力继承了小钢炮系列的优秀传统,同时扩展到了单图、多图、视频理解领域。 此模型的开源,为AI领域带来了新的突破,有望推动端侧AI多模态技术的发展,促进相关应用的创新与普及。感兴趣的开发者和研究者可访问GitHub或HuggingFace平台获取更多信息及源代码。
原文链接
本文链接:https://kx.umi6.com/article/4683.html
转载请注明文章出处
相关推荐
.png)
换一换
重庆:支持开展“人工智能+消费”行动 打造一批“机器人+”应用场景
2025-07-18 20:45:15
「满血华为」上车猛士越野车,33万开卖
2025-07-20 13:03:48
ChatGPT Agent遭暴击,国产AI轮番“公开处刑”
2025-07-19 12:51:53
453 文章
79501 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13