标题:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
刚刚,Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,兼具多模态和推理能力。该模型基于MoE架构,总参数16B,但推理时仅激活2.8B。
与Qwen2.5-VL、Gemma-3等模型对比,Kimi-VL-Thinking以更少的激活参数实现强大推理性能。在重要基准测试中,其表现甚至超越GPT-4o等更大规模模型。目前,两款模型已上线Hugging Face,提供Instruct基础版和Thinking推理版。
Kimi-VL具备强大的视觉理解和推理能力,能通过分析手稿笔迹和内容推断作者身份,或识别城市地标和解答数学题。此外,它在OCR字符识别方面表现优异,得分867,属SOTA水平。
模型还支持多轮Agent交互任务,例如在Chrome中自动启用隐私保护功能。技术上,Kimi-VL由MoE专家混合语言模型、MoonViT视觉编码器和MLP投影器组成,训练分为预训练和后训练两阶段,重点提升多模态理解和长思维链推理能力。
近期,Kimi团队相对低调,但外界猜测其即将推出K1.6模型,该模型已在编程基准测试中取得佳绩。
原文链接
本文链接:https://kx.umi6.com/article/16945.html
转载请注明文章出处
相关推荐
换一换
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”
2025-01-22 23:05:37
专用于法律的两个开源大模型,最高1410亿参数
2024-09-11 16:28:58
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
上海AI公司开源模型登上全球第二
2025-07-03 07:50:43
被简单字谜“打回原形”:大模型只是单向推理者?
2024-07-25 22:19:55
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
2025-04-10 13:47:48
业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
2025-06-27 17:10:33
阿里开源电影级视频生成模型通义万相2.2
2025-07-28 21:20:36
o3深度解读:OpenAI终于发力,agent产品危险了吗?
2025-04-25 22:26:08
AI写代码新姿势:一个截图,代替千行代码
2025-02-22 21:43:44
腾讯发布并开源混元-A13B模型:极端条件仅1张中低端GPU卡即可部署
2025-06-27 17:17:05
阶跃星辰发布新一代基础大模型Step3
2025-07-25 17:34:14
690 文章
483388 浏览
24小时热文
更多
-
2026-03-10 10:02:35 -
2026-03-10 09:02:22 -
2026-03-10 09:01:12