Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

2025-04-10 13:47:48

AI创想团

发布在

科普

阅读：889

标题：Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking，兼具多模态和推理能力。该模型基于MoE架构，总参数16B，但推理时仅激活2.8B。

与Qwen2.5-VL、Gemma-3等模型对比，Kimi-VL-Thinking以更少的激活参数实现强大推理性能。在重要基准测试中，其表现甚至超越GPT-4o等更大规模模型。目前，两款模型已上线Hugging Face，提供Instruct基础版和Thinking推理版。

Kimi-VL具备强大的视觉理解和推理能力，能通过分析手稿笔迹和内容推断作者身份，或识别城市地标和解答数学题。此外，它在OCR字符识别方面表现优异，得分867，属SOTA水平。

模型还支持多轮Agent交互任务，例如在Chrome中自动启用隐私保护功能。技术上，Kimi-VL由MoE专家混合语言模型、MoonViT视觉编码器和MLP投影器组成，训练分为预训练和后训练两阶段，重点提升多模态理解和长思维链推理能力。

近期，Kimi团队相对低调，但外界猜测其即将推出K1.6模型，该模型已在编程基准测试中取得佳绩。

原文链接

本文链接：https://kx.umi6.com/article/16945.html

转载请注明文章出处

Kimi-VL

MoE架构

多模态推理

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

762 文章

825330 浏览

24小时热文