文生视频模型为何迟迟没有“aha moment”？

2025-04-14 15:40:26

蝶舞CyberSwirl

发布在

科普

阅读：798

标题：文生视频模型为何迟迟没有“aha moment”？

“多模态目前仍处于GPT 2至3之间的水平，尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系，如今致力于视频生成领域的探索。

回顾2023年初ChatGPT在国内的火爆，当时中国的大语言模型水平约为GPT 2，而多模态模型至少落后两年。两年来，国内外多家创业公司如MiniMax、Vidu、Sora虽备受期待，但进展有限。

梅涛指出，当前多模态模型面临三大问题：技术差异的原因、何时迎来突破、如何在大厂竞争中脱颖而出。梅涛的经历反映了行业的发展历程。他早在微软研究院就已涉足文生视频领域，这一方向十年前被认为是反直觉的，如今却成为主流。

从文字到图片/视频的技术路线突破了“维度诅咒”，但至今未见收敛迹象。技术迭代节点包括2015年的深度神经网络、2017年的Transformer架构、2020年的Diffusion模型及2024年的自回归架构。2022年底的Stable Diffusion架构点燃了文生图赛道，梅涛借此重启了五年前的研究。

2023年，梅涛创立“智象未来”。他指出，视频生成类产品尚未跨越大众认知门槛，受众偏专业人士，且缺乏“aha moment”。智象未来预计5月中旬推出C端视频生成类Agent应用，此前更侧重海外市场。上周，智象未来开源了image模型，目前在Hugging Face排名第三。

然而，多模态模型正面临开源势力冲击和大厂资源碾压的双重压力。行业深思：技术路线尚未收敛，算力成本高企，未来还需多久？中国创业者能否走出差异化路径？答案可能藏在下一个技术奇点中。

梅涛强调，工具革命不同于模式创新，需要耐心。智象未来计划打造全球化视频创作开发平台，为设计师提供低门槛工具，实现创意高效转化，并推动业务闭环。梅涛预计明年能看到雏形。

开源方面，智象未来认为开源能降低使用门槛，提升社区影响力。开源版本与Pro版并行，Pro版效果更优。此外，视频模型暂无开源计划，但会根据商业化情况调整。

智象未来的CTO姚霆表示，数据决定生成风格，叙事性是关键。视频模型参数量需平衡，过大会浪费资源，过小则无法充分表达内容。数据来源包括公开数据和合作影视公司数据。

针对市场竞争，梅涛认为大厂的优势在于场景、数据和资源，但反应速度不及初创公司。生态虽重要，但最终取决于产品和场景。目前多模态模型仍处于GPT 2阶段，未来需多个“aha moment”才能实现从模型到产品的飞跃。

原文链接

本文链接：https://kx.umi6.com/article/17128.html

转载请注明文章出处

aha moment

多模态

文生视频模型

分享至

打开微信扫一扫

内容投诉

生成图片

蝶舞CyberSwirl

664 文章

477592 浏览

24小时热文

江苏有线等成立科技公司经营范围含集成电路芯片及产品制造等业务

2026-03-10 10:02:35
华泰证券：美以伊冲突下油价高涨或将推升电价

2026-03-10 09:02:22
中信证券：主动补库周期来临特种布基本面将加速赶超

2026-03-10 09:01:12