1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:快手Keye2.0引入DSA注意力,开启多模态强化推理新范式

当你将一段长达9分钟、场景在“晴空万里”与“冰天雪地”间快速切换的冰岛旅行Vlog交给大模型处理时,常规视觉模型通常只能生成基于字幕和画面标签的简单描述。然而,快手自研的多模态大语言模型Keye-VL-2.0-30B-A3B展现了截然不同的能力。它不仅能识别画面内容,还能捕捉因果关系,提供深度规划建议。例如,它建议准备保暖手套以应对“冻手”细节,针对猎奇美食吐槽给出“体验当地文化”的高情商回应,并根据“雪地车祸”画面输出“跟团优于自驾”的安全策略。

Keye-VL-2.0-30B-A3B首次将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了256K超长上下文的深度感知能力,在长视频时序理解上实现几乎无损的推理性能。此外,该模型还首次支持Agent协作机制,在复杂任务如代码生成、工具调用和搜索中展现出强大的系统级协作潜力。

核心技术创新

  1. DSA破解长视频瓶颈
    通过稀疏注意力与特征聚合,模型在处理小时级视频时能精准捕捉关键帧并理清动态规律。在细粒度视频时序理解基准(TimeLens)中,其表现超越Gemini等顶级闭源模型。例如,在制作陶杯工艺视频中,模型准确拆解每个工序并匹配毫秒级时间戳。

  2. Agent框架打通全链路
    模型支持多步任务自动化调度,例如处理复杂指令时,可自主调用API完成门店查询、配送距离计算及订单创建等操作,展现冷静的任务分解能力。

  3. MOPD技术克服灾难性遗忘
    创新引入跨模态多专家策略蒸馏(MOPD),通过分段re-tokenize与分桶优势缩放方法,有效整合垂域专家模型,提升感知与推理能力。

  4. Context-RL确保可靠性
    在后训练阶段,通过创新奖励信号与严苛数据引擎,模型大幅降低幻觉倾向,确保长上下文推演中的决策稳定性。

落地驱动业务增长

Keye-VL-2.0-30B-A3B已融入快手核心业务,显著提升推荐系统命中率与广告营销收益。同时,其Agent协作机制赋能创作者生态,打造端到端的智能生产闭环,从素材检索到自动化剪辑包装,极大降低优质内容生产门槛。

快手以30B版本为基石,持续优化底层算力与算法,推动多模态技术深入业务一线。跑分不是终点,落地才是目标。

致谢:本文案例视频素材源自快手平台@爱德黎子、@山白、@南翔、@穆穆(鬼神)。开源主页与模型权重已上线Hugging Face与GitHub。

原文链接
本文链接:https://kx.umi6.com/article/36238.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国泰海通:谷歌Gemini 3实现断层式领先 大模型竞争格局加速重构
2025-11-20 21:45:30
2.4万亿参数原生全模态,文心5.0一手实测来了
2025-11-13 18:12:58
心影随形创始人刘斌新:做不跟用户抢时间的AI产品丨中国AIGC产业峰会
2025-04-22 18:24:46
同级别最强:Mistral Small 3.1 登场,128K 上下文、单张 4090 可跑,优于 Gemma 3 和 GPT4o-mini
2025-03-19 15:37:22
央视曝光互联网广告乱象:AI伪造专家、“医用级”当噱头骗宝妈
2026-05-26 09:19:52
工信部发布2026年汽车标准化工作要点:推动自动驾驶系统强制性国家标准、自动驾驶仿真试验方法标准发布实施
2026-05-26 17:42:58
程序员才值几个钱 AI比人贵:微软、Uber等美国科技巨头都烧不起钱了
2026-05-26 19:46:40
海尔发布AI运动外骨骼机器人:1.75kg超轻机身破纪录 全碳纤维+钛合金设计
2026-05-26 10:21:19
1400亿Agent入场,“流量”这条护城河要塌了
2026-05-27 18:40:58
华泰证券:SpaceX上市或提升商业航天板块投资情绪
2026-05-26 08:16:34
华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升
2026-05-26 15:32:26
上纬新材工商信息新增人工智能硬件研发销售等经营范围
2026-05-25 16:43:33
MiMo-V2.5系列API永久降价 最高降幅达99%
2026-05-27 08:15:28
24小时热文
更多
扫一扫体验小程序