1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如,在一张包含电影票和小吃券的图片中,大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异,准确判断出只有两张电影票,最上方的是小吃券。它不仅“看得清”,还能“想得明白”,在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息,Keye-VL同样表现出色。例如,当被问及镜头如何变化时,它能分析出“镜头从高角度固定位置缓慢向右旋转,展示中环夜景街道”,并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座,视觉模型基于KeyeViT初始化,并通过MLP层桥接。预训练分为三个阶段:冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练,逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习,涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模,提升强化学习稳定性,并开发Verifier模型验证输出逻辑性与答案一致性。实验显示,Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先,展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断,它都能给出更稳健的答案。

未来展望
未来,Keye-VL将融合多模态Agent能力,强化多轮工具调用和深度推理能力,推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接
本文链接:https://kx.umi6.com/article/29345.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
2025-10-31 10:25:44
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
独家|智元机器人:正与阶跃星辰合作 将多模态能力赋能至机器人
2025-03-10 12:37:14
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
2025-05-30 15:54:58
24小时热文
更多
扫一扫体验小程序