将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

2026-05-27 10:18:58

虚拟微光

发布在

科普

阅读：1188

标题：快手Keye2.0引入DSA注意力，开启多模态强化推理新范式

当你将一段长达9分钟、场景在“晴空万里”与“冰天雪地”间快速切换的冰岛旅行Vlog交给大模型处理时，常规视觉模型通常只能生成基于字幕和画面标签的简单描述。然而，快手自研的多模态大语言模型Keye-VL-2.0-30B-A3B展现了截然不同的能力。它不仅能识别画面内容，还能捕捉因果关系，提供深度规划建议。例如，它建议准备保暖手套以应对“冻手”细节，针对猎奇美食吐槽给出“体验当地文化”的高情商回应，并根据“雪地车祸”画面输出“跟团优于自驾”的安全策略。

Keye-VL-2.0-30B-A3B首次将DSA（DeepSeek Sparse Attention）机制引入多模态理解场景，成功解锁了256K超长上下文的深度感知能力，在长视频时序理解上实现几乎无损的推理性能。此外，该模型还首次支持Agent协作机制，在复杂任务如代码生成、工具调用和搜索中展现出强大的系统级协作潜力。

核心技术创新

DSA破解长视频瓶颈
通过稀疏注意力与特征聚合，模型在处理小时级视频时能精准捕捉关键帧并理清动态规律。在细粒度视频时序理解基准（TimeLens）中，其表现超越Gemini等顶级闭源模型。例如，在制作陶杯工艺视频中，模型准确拆解每个工序并匹配毫秒级时间戳。
Agent框架打通全链路
模型支持多步任务自动化调度，例如处理复杂指令时，可自主调用API完成门店查询、配送距离计算及订单创建等操作，展现冷静的任务分解能力。
MOPD技术克服灾难性遗忘
创新引入跨模态多专家策略蒸馏（MOPD），通过分段re-tokenize与分桶优势缩放方法，有效整合垂域专家模型，提升感知与推理能力。
Context-RL确保可靠性
在后训练阶段，通过创新奖励信号与严苛数据引擎，模型大幅降低幻觉倾向，确保长上下文推演中的决策稳定性。