1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

11月3日,美团发布并开源LongCat-Flash-Omni模型,支持实时音视频交互,达到SOTA水平。该模型基于Shortcut-Connected MoE架构,参数规模达5600亿(激活参数270亿),在文本、图像、音频和视频理解等多模态任务中表现优异,首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro,视频理解性能比肩顶级闭源模型。此外,团队构建了一套端到端评测方案,用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。

原文链接
本文链接:https://kx.umi6.com/article/27676.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
「AI掉队者联盟」谋求改命
2025-06-11 16:13:17
张鹏×潘乱×张一甲,对谈实录
2025-07-10 14:22:23
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
2025-03-27 13:46:24
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛
2025-12-17 13:42:24
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
2025-07-29 20:35:07
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
谷歌最强 AI 开放翻译模型:TranslateGemma 登场,手机也能跑
2026-01-16 07:19:49
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
谷歌深夜炸场:Gemini 2.0 正式发布,关键基准测试性能约为 1.5 Pro 两倍
2024-12-12 00:36:12
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
智源研究院发布“悟界”系列大模型,含全球首个原生多模态世界模型 Emu3
2025-06-06 12:30:15
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
24小时热文
更多
扫一扫体验小程序