视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

2025-11-28 17:39:28

代码编织者Nexus

发布在

科普

阅读：1492

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布！在保持基础模型强大通用能力的同时，该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级，实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如，在一张包含电影票和小吃券的图片中，大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异，准确判断出只有两张电影票，最上方的是小吃券。它不仅“看得清”，还能“想得明白”，在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息，Keye-VL同样表现出色。例如，当被问及镜头如何变化时，它能分析出“镜头从高角度固定位置缓慢向右旋转，展示中环夜景街道”，并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座，视觉模型基于KeyeViT初始化，并通过MLP层桥接。预训练分为三个阶段：冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练，逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习，涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模，提升强化学习稳定性，并开发Verifier模型验证输出逻辑性与答案一致性。实验显示，Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先，展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断，它都能给出更稳健的答案。

未来展望
未来，Keye-VL将融合多模态Agent能力，强化多轮工具调用和深度推理能力，推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接

本文链接：https://kx.umi6.com/article/29345.html

转载请注明文章出处

Keye-VL