1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如,在一张包含电影票和小吃券的图片中,大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异,准确判断出只有两张电影票,最上方的是小吃券。它不仅“看得清”,还能“想得明白”,在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息,Keye-VL同样表现出色。例如,当被问及镜头如何变化时,它能分析出“镜头从高角度固定位置缓慢向右旋转,展示中环夜景街道”,并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座,视觉模型基于KeyeViT初始化,并通过MLP层桥接。预训练分为三个阶段:冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练,逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习,涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模,提升强化学习稳定性,并开发Verifier模型验证输出逻辑性与答案一致性。实验显示,Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先,展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断,它都能给出更稳健的答案。

未来展望
未来,Keye-VL将融合多模态Agent能力,强化多轮工具调用和深度推理能力,推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接
本文链接:https://kx.umi6.com/article/29345.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
2025-02-27 10:13:59
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
我们扒完了GPT-5全网爆料,奥特曼和OpenAI 这次的饼真不好画了
2025-08-05 19:18:01
月之暗面推出Kimi K2.5模型,全面升级多模态能力
2026-01-27 14:20:13
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
2025-08-01 19:06:23
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
2025-03-30 11:28:03
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
2025-10-31 10:25:44
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
消息称小鹏机器人新成立“智能拟态部”,主攻机器人多模态
2025-07-25 17:29:22
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
2024-12-18 14:33:56
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
24小时热文
更多
扫一扫体验小程序