1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:文生视频模型为何迟迟没有“aha moment”?

“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。

回顾2023年初ChatGPT在国内的火爆,当时中国的大语言模型水平约为GPT 2,而多模态模型至少落后两年。两年来,国内外多家创业公司如MiniMax、Vidu、Sora虽备受期待,但进展有限。

梅涛指出,当前多模态模型面临三大问题:技术差异的原因、何时迎来突破、如何在大厂竞争中脱颖而出。梅涛的经历反映了行业的发展历程。他早在微软研究院就已涉足文生视频领域,这一方向十年前被认为是反直觉的,如今却成为主流。

从文字到图片/视频的技术路线突破了“维度诅咒”,但至今未见收敛迹象。技术迭代节点包括2015年的深度神经网络、2017年的Transformer架构、2020年的Diffusion模型及2024年的自回归架构。2022年底的Stable Diffusion架构点燃了文生图赛道,梅涛借此重启了五年前的研究。

2023年,梅涛创立“智象未来”。他指出,视频生成类产品尚未跨越大众认知门槛,受众偏专业人士,且缺乏“aha moment”。智象未来预计5月中旬推出C端视频生成类Agent应用,此前更侧重海外市场。上周,智象未来开源了image模型,目前在Hugging Face排名第三。

然而,多模态模型正面临开源势力冲击和大厂资源碾压的双重压力。行业深思:技术路线尚未收敛,算力成本高企,未来还需多久?中国创业者能否走出差异化路径?答案可能藏在下一个技术奇点中。

梅涛强调,工具革命不同于模式创新,需要耐心。智象未来计划打造全球化视频创作开发平台,为设计师提供低门槛工具,实现创意高效转化,并推动业务闭环。梅涛预计明年能看到雏形。

开源方面,智象未来认为开源能降低使用门槛,提升社区影响力。开源版本与Pro版并行,Pro版效果更优。此外,视频模型暂无开源计划,但会根据商业化情况调整。

智象未来的CTO姚霆表示,数据决定生成风格,叙事性是关键。视频模型参数量需平衡,过大会浪费资源,过小则无法充分表达内容。数据来源包括公开数据和合作影视公司数据。

针对市场竞争,梅涛认为大厂的优势在于场景、数据和资源,但反应速度不及初创公司。生态虽重要,但最终取决于产品和场景。目前多模态模型仍处于GPT 2阶段,未来需多个“aha moment”才能实现从模型到产品的飞跃。

原文链接
本文链接:https://kx.umi6.com/article/17128.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源研究院发布“悟界”系列大模型,含全球首个原生多模态世界模型 Emu3
2025-06-06 12:30:15
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
匆匆发布的Llama4
2025-04-06 16:09:03
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
2025-10-31 10:25:44
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
独家|智元机器人:正与阶跃星辰合作 将多模态能力赋能至机器人
2025-03-10 12:37:14
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
2025-05-30 15:54:58
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
2025-07-29 20:35:07
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
2025-03-27 13:46:24
从Figma到中国垂类应用全球崛起
2025-08-01 14:01:49
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
24小时热文
更多
扫一扫体验小程序