1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如,在一张包含电影票和小吃券的图片中,大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异,准确判断出只有两张电影票,最上方的是小吃券。它不仅“看得清”,还能“想得明白”,在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息,Keye-VL同样表现出色。例如,当被问及镜头如何变化时,它能分析出“镜头从高角度固定位置缓慢向右旋转,展示中环夜景街道”,并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座,视觉模型基于KeyeViT初始化,并通过MLP层桥接。预训练分为三个阶段:冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练,逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习,涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模,提升强化学习稳定性,并开发Verifier模型验证输出逻辑性与答案一致性。实验显示,Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先,展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断,它都能给出更稳健的答案。

未来展望
未来,Keye-VL将融合多模态Agent能力,强化多轮工具调用和深度推理能力,推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接
本文链接:https://kx.umi6.com/article/29345.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
刚刚,全球视频模型新王诞生了!
2026-03-19 16:05:16
阶跃星辰CEO姜大昕:多模态是实现AGI的必经之路
2025-05-09 10:48:42
豆包大模型1.6正式发布
2025-06-11 11:12:11
Grok 4宣布全球免费使用
2025-08-11 11:04:47
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
智谱发布首个多模态Coding基座模型 OpenClaw龙虾获视觉能力
2026-04-02 08:48:17
Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈
2025-05-29 14:33:07
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
2024-12-18 14:33:56
独家|智元机器人:正与阶跃星辰合作 将多模态能力赋能至机器人
2025-03-10 12:37:14
全球顶尖AI科学家许主洪加盟阿里巴巴,担任阿里集团副总裁负责AI To C业务
2025-02-06 11:28:49
24小时热文
更多
扫一扫体验小程序