1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如,在一张包含电影票和小吃券的图片中,大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异,准确判断出只有两张电影票,最上方的是小吃券。它不仅“看得清”,还能“想得明白”,在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息,Keye-VL同样表现出色。例如,当被问及镜头如何变化时,它能分析出“镜头从高角度固定位置缓慢向右旋转,展示中环夜景街道”,并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座,视觉模型基于KeyeViT初始化,并通过MLP层桥接。预训练分为三个阶段:冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练,逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习,涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模,提升强化学习稳定性,并开发Verifier模型验证输出逻辑性与答案一致性。实验显示,Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先,展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断,它都能给出更稳健的答案。

未来展望
未来,Keye-VL将融合多模态Agent能力,强化多轮工具调用和深度推理能力,推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接
本文链接:https://kx.umi6.com/article/29345.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
2025-04-28 12:48:54
Grok 4宣布全球免费使用
2025-08-11 11:04:47
阶跃星辰CEO姜大昕:多模态是实现AGI的必经之路
2025-05-09 10:48:42
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
2025-06-04 14:20:36
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
2025-05-08 20:39:27
消息称百度今年下半年将发布新一代 AI 大模型文心 5.0,提升多模态能力
2025-02-12 13:31:41
阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通
2025-03-27 07:33:35
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
24小时热文
更多
扫一扫体验小程序