2025年8月27日,面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型,在性能与效率上实现越级领先,超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入,达到96倍视觉压缩率,显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平,并支持短思考与长思考混合推理模式,适用于端侧设备。模型已开源,可通过GitHub、Hugging Face和ModelScope获取。
原文链接
本文链接:https://kx.umi6.com/article/24266.html
转载请注明文章出处
相关推荐
换一换
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025-09-01 13:19:49
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布
2025-10-19 15:51:15
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
2025-03-25 09:39:46
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
智谱联合华为开源首个国产芯片训练的多模态SOTA模型
2026-01-14 09:24:34
650 文章
452669 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18