视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

2025-09-05 22:26:24

阿达旻

发布在

科普

阅读：857

标题：快手开源多模态推理模型Keye-VL 1.5：视频理解新标杆

快手开源了新一代多模态推理模型Keye-VL 1.5，具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本，新模型在时序定位和跨模态推理上显著提升，并创新性提出Slow-Fast双路编码机制，在性能与效率间实现平衡。

Keye-VL 1.5在多个公开基准测试中表现出色。例如，在Video-MME短视频基准中获得73.0的高分，领先同级模型；在MMBench、OpenCompass等综合基准中超越Qwen2.5-VL 7B，取得多项SOTA成绩。此外，内部评测显示，该模型在正确性、完整性、相关性等五项指标上综合得分3.53，较预览版提升0.51分。

模型的核心亮点包括精准的视频元素定位、详细描述能力和推理能力。例如，它能准确判断特定物品在视频中的出现时间（精确到0.1秒），并对画面内容进行细致描述。同时，它还能根据前序视频内容推断后续事件原因，展现强大的逻辑推理能力。

架构上，Keye-VL 1.5采用“视觉Transformer+MLP投影器+语言解码器”三段式设计，并引入SigLIP预训练方法增强语义对齐能力。针对视频处理，创新性提出Slow-Fast编码策略，通过动态调整帧分辨率与token分配，在保证细节的同时降低计算成本。

训练过程分为四阶段渐进式预训练，从单模态对齐到多模态扩展，逐步优化模型性能。最后通过监督微调、链式思考冷启动和强化学习等后处理步骤，进一步提升推理能力和用户偏好一致性。

Keye团队还在多个顶会上发布了重要成果，包括ICML 2025的多模态RLHF框架MM-RLHF、KDD 2025的VLM治理框架，以及CVPR 2025的交错图文数据集CoMM等。这些技术正在快手内部应用于内容审核、智能剪辑等场景，验证了复杂视频理解技术在实际业务中的高效性。

技术报告与代码已开源，可访问以下链接获取：
技术报告：https://arxiv.org/pdf/2509.01563
代码：https://github.com/Kwai-Keye/Keye/blob/main/Kwai_Keye_v1_5.pdf
模型权重：https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B
在线DEMO：https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B

原文链接

本文链接：https://kx.umi6.com/article/24778.html

转载请注明文章出处

多模态模型