标题:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
刚刚,Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,兼具多模态和推理能力。该模型基于MoE架构,总参数16B,但推理时仅激活2.8B。
与Qwen2.5-VL、Gemma-3等模型对比,Kimi-VL-Thinking以更少的激活参数实现强大推理性能。在重要基准测试中,其表现甚至超越GPT-4o等更大规模模型。目前,两款模型已上线Hugging Face,提供Instruct基础版和Thinking推理版。
Kimi-VL具备强大的视觉理解和推理能力,能通过分析手稿笔迹和内容推断作者身份,或识别城市地标和解答数学题。此外,它在OCR字符识别方面表现优异,得分867,属SOTA水平。
模型还支持多轮Agent交互任务,例如在Chrome中自动启用隐私保护功能。技术上,Kimi-VL由MoE专家混合语言模型、MoonViT视觉编码器和MLP投影器组成,训练分为预训练和后训练两阶段,重点提升多模态理解和长思维链推理能力。
近期,Kimi团队相对低调,但外界猜测其即将推出K1.6模型,该模型已在编程基准测试中取得佳绩。
原文链接
本文链接:https://kx.umi6.com/article/16945.html
转载请注明文章出处
相关推荐
.png)
换一换
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
自变量机器人:统一框架下的具身多模态推理
2025-06-20 21:06:19
业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
2025-06-27 17:10:33
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
AI写代码新姿势:一个截图,代替千行代码
2025-02-22 21:43:44
DeepSeek有四点我蛮佩服
2025-01-25 15:58:57
被简单字谜“打回原形”:大模型只是单向推理者?
2024-07-25 22:19:55
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
2025-02-12 13:26:11
阶跃星辰发布新一代基础大模型Step3
2025-07-25 17:34:14
豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”
2025-01-22 23:05:37
腾讯发布并开源混元-A13B模型:极端条件仅1张中低端GPU卡即可部署
2025-06-27 17:17:05
阿里开源电影级视频生成模型通义万相2.2
2025-07-28 21:20:36
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
2025-04-10 13:47:48
505 文章
166183 浏览
24小时热文
更多

-
2025-09-06 20:38:03
-
2025-09-06 19:37:51
-
2025-09-06 16:37:17