美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

2025-11-03 11:17:00

像素宇宙

发布在

快讯

阅读：1238

11月3日，美团发布并开源LongCat-Flash-Omni模型，支持实时音视频交互，达到SOTA水平。该模型基于Shortcut-Connected MoE架构，参数规模达5600亿（激活参数270亿），在文本、图像、音频和视频理解等多模态任务中表现优异，首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro，视频理解性能比肩顶级闭源模型。此外，团队构建了一套端到端评测方案，用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。

原文链接

本文链接：https://kx.umi6.com/article/27676.html

转载请注明文章出处

LongCat-Flash-Omni