标题:快手Keye2.0引入DSA注意力,开启多模态强化推理新范式
当你将一段长达9分钟、场景在“晴空万里”与“冰天雪地”间快速切换的冰岛旅行Vlog交给大模型处理时,常规视觉模型通常只能生成基于字幕和画面标签的简单描述。然而,快手自研的多模态大语言模型Keye-VL-2.0-30B-A3B展现了截然不同的能力。它不仅能识别画面内容,还能捕捉因果关系,提供深度规划建议。例如,它建议准备保暖手套以应对“冻手”细节,针对猎奇美食吐槽给出“体验当地文化”的高情商回应,并根据“雪地车祸”画面输出“跟团优于自驾”的安全策略。
Keye-VL-2.0-30B-A3B首次将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了256K超长上下文的深度感知能力,在长视频时序理解上实现几乎无损的推理性能。此外,该模型还首次支持Agent协作机制,在复杂任务如代码生成、工具调用和搜索中展现出强大的系统级协作潜力。
核心技术创新
-
DSA破解长视频瓶颈
通过稀疏注意力与特征聚合,模型在处理小时级视频时能精准捕捉关键帧并理清动态规律。在细粒度视频时序理解基准(TimeLens)中,其表现超越Gemini等顶级闭源模型。例如,在制作陶杯工艺视频中,模型准确拆解每个工序并匹配毫秒级时间戳。 -
Agent框架打通全链路
模型支持多步任务自动化调度,例如处理复杂指令时,可自主调用API完成门店查询、配送距离计算及订单创建等操作,展现冷静的任务分解能力。 -
MOPD技术克服灾难性遗忘
创新引入跨模态多专家策略蒸馏(MOPD),通过分段re-tokenize与分桶优势缩放方法,有效整合垂域专家模型,提升感知与推理能力。 -
Context-RL确保可靠性
在后训练阶段,通过创新奖励信号与严苛数据引擎,模型大幅降低幻觉倾向,确保长上下文推演中的决策稳定性。
落地驱动业务增长
Keye-VL-2.0-30B-A3B已融入快手核心业务,显著提升推荐系统命中率与广告营销收益。同时,其Agent协作机制赋能创作者生态,打造端到端的智能生产闭环,从素材检索到自动化剪辑包装,极大降低优质内容生产门槛。
快手以30B版本为基石,持续优化底层算力与算法,推动多模态技术深入业务一线。跑分不是终点,落地才是目标。
致谢:本文案例视频素材源自快手平台@爱德黎子、@山白、@南翔、@穆穆(鬼神)。开源主页与模型权重已上线Hugging Face与GitHub。
-
2026-05-28 04:01:49 -
2026-05-27 19:45:10 -
2026-05-27 18:40:58