1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:快手开源多模态推理模型Keye-VL 1.5:视频理解新标杆

快手开源了新一代多模态推理模型Keye-VL 1.5,具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本,新模型在时序定位和跨模态推理上显著提升,并创新性提出Slow-Fast双路编码机制,在性能与效率间实现平衡。

Keye-VL 1.5在多个公开基准测试中表现出色。例如,在Video-MME短视频基准中获得73.0的高分,领先同级模型;在MMBench、OpenCompass等综合基准中超越Qwen2.5-VL 7B,取得多项SOTA成绩。此外,内部评测显示,该模型在正确性、完整性、相关性等五项指标上综合得分3.53,较预览版提升0.51分。

模型的核心亮点包括精准的视频元素定位、详细描述能力和推理能力。例如,它能准确判断特定物品在视频中的出现时间(精确到0.1秒),并对画面内容进行细致描述。同时,它还能根据前序视频内容推断后续事件原因,展现强大的逻辑推理能力。

架构上,Keye-VL 1.5采用“视觉Transformer+MLP投影器+语言解码器”三段式设计,并引入SigLIP预训练方法增强语义对齐能力。针对视频处理,创新性提出Slow-Fast编码策略,通过动态调整帧分辨率与token分配,在保证细节的同时降低计算成本。

训练过程分为四阶段渐进式预训练,从单模态对齐到多模态扩展,逐步优化模型性能。最后通过监督微调、链式思考冷启动和强化学习等后处理步骤,进一步提升推理能力和用户偏好一致性。

Keye团队还在多个顶会上发布了重要成果,包括ICML 2025的多模态RLHF框架MM-RLHF、KDD 2025的VLM治理框架,以及CVPR 2025的交错图文数据集CoMM等。这些技术正在快手内部应用于内容审核、智能剪辑等场景,验证了复杂视频理解技术在实际业务中的高效性。

技术报告与代码已开源,可访问以下链接获取:
技术报告:https://arxiv.org/pdf/2509.01563
代码:https://github.com/Kwai-Keye/Keye/blob/main/Kwai_Keye_v1_5.pdf
模型权重:https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B
在线DEMO:https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B

原文链接
本文链接:https://kx.umi6.com/article/24778.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
2026-01-16 15:56:29
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
2025-12-02 23:39:14
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025-09-24 14:42:04
华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了
2026-01-05 14:06:30
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
24小时热文
更多
扫一扫体验小程序