1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

刚刚,Kimi团队发布全新开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,兼具多模态和推理能力。该模型基于MoE架构,总参数16B,但推理时仅激活2.8B。

与Qwen2.5-VL、Gemma-3等模型对比,Kimi-VL-Thinking以更少的激活参数实现强大推理性能。在重要基准测试中,其表现甚至超越GPT-4o等更大规模模型。目前,两款模型已上线Hugging Face,提供Instruct基础版和Thinking推理版。

Kimi-VL具备强大的视觉理解和推理能力,能通过分析手稿笔迹和内容推断作者身份,或识别城市地标和解答数学题。此外,它在OCR字符识别方面表现优异,得分867,属SOTA水平。

模型还支持多轮Agent交互任务,例如在Chrome中自动启用隐私保护功能。技术上,Kimi-VL由MoE专家混合语言模型、MoonViT视觉编码器和MLP投影器组成,训练分为预训练和后训练两阶段,重点提升多模态理解和长思维链推理能力。

近期,Kimi团队相对低调,但外界猜测其即将推出K1.6模型,该模型已在编程基准测试中取得佳绩。

原文链接
本文链接:https://kx.umi6.com/article/16945.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
2025-02-12 13:26:11
AI写代码新姿势:一个截图,代替千行代码
2025-02-22 21:43:44
24小时热文
更多
扫一扫体验小程序