美团视频生成模型来了！一出手就是开源SOTA

2025-10-27 16:06:12

未来笔触

发布在

科普

阅读：910

美团最新开源的视频生成模型LongCat-Video，以13.6B参数量成为当前开源领域的SOTA（最佳性能）模型。这款模型支持文生视频、图生视频以及视频延长功能，能够生成长达数分钟的高质量视频，画质清晰且物理逻辑逼真。

官方演示中，无论是空中滑板、特效变身，还是第一视角骑行视频，LongCat-Video均展现了出色的真实感与一致性。其文生视频能力在开源模型中表现顶尖，甚至在部分维度可媲美谷歌闭源模型Veo3。而其长视频生成能力（稳定输出5分钟）更是被视为迈向AI视频终极形态的重要一步。

具体来看，LongCat-Video具备以下亮点：
1. 文生视频：支持720p、30fps高清生成，语义理解与视觉呈现达到开源SOTA水平，尤其擅长复杂场景如“水上芭蕾”。
2. 图生视频：能保留参考图像的主体属性和风格，适用于商业宣传或创意制作，例如机器人日常vlog。
3. 视频延长：通过提示词续写生成连续剧式长视频，解决了传统模型中常见的色彩漂移和质量下降问题。

技术上，LongCat-Video基于Diffusion Transformer（DiT）框架设计，统一处理多种任务，并采用块稀疏注意力、从粗到精生成范式等创新方法，提升效率与质量。此外，交互式生成支持让用户为不同片段设置独立指令，进一步增强了创作灵活性。

值得注意的是，美团近期在AI领域动作频频，从基础大模型LongCat-Flash系列到语音模型LongCat-Audio-Codec，再到现实场景Agent评测基准VitaBench，展现出跨界布局的决心。

LongCat-Video已开源，采用MIT协议，允许商用，引发业界广泛关注。项目地址：
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video

原文链接

本文链接：https://kx.umi6.com/article/27346.html

转载请注明文章出处

LongCat-Video