1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

11月3日,美团发布并开源LongCat-Flash-Omni模型,支持实时音视频交互,达到SOTA水平。该模型基于Shortcut-Connected MoE架构,参数规模达5600亿(激活参数270亿),在文本、图像、音频和视频理解等多模态任务中表现优异,首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro,视频理解性能比肩顶级闭源模型。此外,团队构建了一套端到端评测方案,用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。

原文链接
本文链接:https://kx.umi6.com/article/27676.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
百度文心大模型 4.5 官宣 3 月 16 日发布,原生多模态、深度思考
2025-02-28 15:14:39
2024年AI“洋模型”大起底
2024-12-27 15:04:14
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
2025-07-29 20:35:07
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
Gemini负责人爆料!多模态统一token表示,视觉至关重要
2025-07-03 15:27:24
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
展望2025,AI行业有哪些创新机会?
2024-11-29 15:02:31
李飞飞团队推出首款商用世界模型Marble
2025-11-13 17:12:35
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
我们扒完了GPT-5全网爆料,奥特曼和OpenAI 这次的饼真不好画了
2025-08-05 19:18:01
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
24小时热文
更多
扫一扫体验小程序