1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。

图像语义理解更可靠
例如,在一张包含电影票和小吃券的图片中,大多数人会误认为有三张电影票。但Keye-VL通过识别文字、标识和版式差异,准确判断出只有两张电影票,最上方的是小吃券。它不仅“看得清”,还能“想得明白”,在复杂场景中表现比人类更严谨。

视频细节把握更精准
对于复杂视频信息,Keye-VL同样表现出色。例如,当被问及镜头如何变化时,它能分析出“镜头从高角度固定位置缓慢向右旋转,展示中环夜景街道”,并捕捉到“蓝色双层电车”、“Louis Vuitton建筑”等细节。这体现了其对视频物体和时序信息的精准把握。

技术更新
Keye-VL采用DeepSeek-V3-Terminus作为语言模型基座,视觉模型基于KeyeViT初始化,并通过MLP层桥接。预训练分为三个阶段:冻结ViT和LLM训练Projector、全参数预训练、高质量数据退火训练,逐步提升模型的细粒度感知能力。后训练包括监督微调、冷启动和强化学习,涵盖视觉问答、图表理解、逻辑推理等任务。

团队还引入GSPO算法进行sequence-level建模,提升强化学习稳定性,并开发Verifier模型验证输出逻辑性与答案一致性。实验显示,Keye-Verifier显著提升了模型在多模态评测基准上的性能。

模型评估
Keye-VL在MMBench、MathVista、VideoMME等多项benchmark中全面领先,展现出强大的视觉理解、数学推理和视频理解能力。无论是长视频事件捕捉还是复杂逻辑推断,它都能给出更稳健的答案。

未来展望
未来,Keye-VL将融合多模态Agent能力,强化多轮工具调用和深度推理能力,推动模型在真实任务中自主解决问题。目标是打造更通用、更可靠的下一代多模态智能系统。

开源地址
Github: https://github.com/Kwai-Keye/Keye
HuggingFace: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

原文链接
本文链接:https://kx.umi6.com/article/29345.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会
2026-05-21 14:43:04
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI
2026-05-17 17:46:55
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
阶跃星辰与吉利联合开源,多模态实力领跑开源大模型
2025-02-18 10:15:09
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
2025-03-30 11:28:03
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈
2025-05-29 14:33:07
24小时热文
更多
扫一扫体验小程序