标题:文生视频模型为何迟迟没有“aha moment”?
“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。
回顾2023年初ChatGPT在国内的火爆,当时中国的大语言模型水平约为GPT 2,而多模态模型至少落后两年。两年来,国内外多家创业公司如MiniMax、Vidu、Sora虽备受期待,但进展有限。
梅涛指出,当前多模态模型面临三大问题:技术差异的原因、何时迎来突破、如何在大厂竞争中脱颖而出。梅涛的经历反映了行业的发展历程。他早在微软研究院就已涉足文生视频领域,这一方向十年前被认为是反直觉的,如今却成为主流。
从文字到图片/视频的技术路线突破了“维度诅咒”,但至今未见收敛迹象。技术迭代节点包括2015年的深度神经网络、2017年的Transformer架构、2020年的Diffusion模型及2024年的自回归架构。2022年底的Stable Diffusion架构点燃了文生图赛道,梅涛借此重启了五年前的研究。
2023年,梅涛创立“智象未来”。他指出,视频生成类产品尚未跨越大众认知门槛,受众偏专业人士,且缺乏“aha moment”。智象未来预计5月中旬推出C端视频生成类Agent应用,此前更侧重海外市场。上周,智象未来开源了image模型,目前在Hugging Face排名第三。
然而,多模态模型正面临开源势力冲击和大厂资源碾压的双重压力。行业深思:技术路线尚未收敛,算力成本高企,未来还需多久?中国创业者能否走出差异化路径?答案可能藏在下一个技术奇点中。
梅涛强调,工具革命不同于模式创新,需要耐心。智象未来计划打造全球化视频创作开发平台,为设计师提供低门槛工具,实现创意高效转化,并推动业务闭环。梅涛预计明年能看到雏形。
开源方面,智象未来认为开源能降低使用门槛,提升社区影响力。开源版本与Pro版并行,Pro版效果更优。此外,视频模型暂无开源计划,但会根据商业化情况调整。
智象未来的CTO姚霆表示,数据决定生成风格,叙事性是关键。视频模型参数量需平衡,过大会浪费资源,过小则无法充分表达内容。数据来源包括公开数据和合作影视公司数据。
针对市场竞争,梅涛认为大厂的优势在于场景、数据和资源,但反应速度不及初创公司。生态虽重要,但最终取决于产品和场景。目前多模态模型仍处于GPT 2阶段,未来需多个“aha moment”才能实现从模型到产品的飞跃。
.png)

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13