实时音视频交互

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

11月3日，美团发布并开源LongCat-Flash-Omni模型，支持实时音视频交互，达到SOTA水平。该模型基于Shortcut-Connected MoE架构，参数规模达5600亿（激活参数270亿），在文本、图像、音频和视频理解等多模态任务中表现优异，首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro，视频理解性能比肩顶级闭源模型。此外，团队构建了一套端到端评测方案，用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。

原文链接