2025年8月27日,面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型,在性能与效率上实现越级领先,超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入,达到96倍视觉压缩率,显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平,并支持短思考与长思考混合推理模式,适用于端侧设备。模型已开源,可通过GitHub、Hugging Face和ModelScope获取。
原文链接
本文链接:https://kx.umi6.com/article/24266.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手
2024-09-12 16:52:34
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了
2025-07-28 10:08:25
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025-08-27 12:03:30
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
524 文章
243164 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14