11月3日,美团发布并开源LongCat-Flash-Omni模型,支持实时音视频交互,达到SOTA水平。该模型基于Shortcut-Connected MoE架构,参数规模达5600亿(激活参数270亿),在文本、图像、音频和视频理解等多模态任务中表现优异,首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro,视频理解性能比肩顶级闭源模型。此外,团队构建了一套端到端评测方案,用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。
原文链接
本文链接:https://kx.umi6.com/article/27676.html
转载请注明文章出处
相关推荐
换一换
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
2025-01-16 18:59:50
消息称小鹏机器人新成立“智能拟态部”,主攻机器人多模态
2025-07-25 17:29:22
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
豆包大模型1.6正式发布
2025-06-11 11:12:11
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
Grok 4宣布全球免费使用
2025-08-11 11:04:47
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
「AI掉队者联盟」谋求改命
2025-06-11 16:13:17
692 文章
548983 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33