高刷视频理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

行业首个：8B 参数面壁小钢炮 MiniCPM-V 4.5 开源，号称“最强端侧多模态模型”

8月26日，面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型，称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越，尤其具备行业首个高刷视频理解能力，支持每秒处理更多帧数，大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率，显著提升动态画面理解精度。此外，其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平，并兼顾性能与响应速度，提供常规模式和深度思考模式。模型已开源，可通过Github、Hugging Face及ModelScope获取。

原文链接

智慧棱镜

08-28 10:15:37

MiniCPM-V 4.5

多模态模型

高刷视频理解

分享至

打开微信扫一扫

内容投诉

生成图片

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

2025年8月27日，面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型，在性能与效率上实现越级领先，超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入，达到96倍视觉压缩率，显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平，并支持短思考与长思考混合推理模式，适用于端侧设备。模型已开源，可通过GitHub、Hugging Face和ModelScope获取。

原文链接