1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:文生视频模型为何迟迟没有“aha moment”?

“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。

回顾2023年初ChatGPT在国内的火爆,当时中国的大语言模型水平约为GPT 2,而多模态模型至少落后两年。两年来,国内外多家创业公司如MiniMax、Vidu、Sora虽备受期待,但进展有限。

梅涛指出,当前多模态模型面临三大问题:技术差异的原因、何时迎来突破、如何在大厂竞争中脱颖而出。梅涛的经历反映了行业的发展历程。他早在微软研究院就已涉足文生视频领域,这一方向十年前被认为是反直觉的,如今却成为主流。

从文字到图片/视频的技术路线突破了“维度诅咒”,但至今未见收敛迹象。技术迭代节点包括2015年的深度神经网络、2017年的Transformer架构、2020年的Diffusion模型及2024年的自回归架构。2022年底的Stable Diffusion架构点燃了文生图赛道,梅涛借此重启了五年前的研究。

2023年,梅涛创立“智象未来”。他指出,视频生成类产品尚未跨越大众认知门槛,受众偏专业人士,且缺乏“aha moment”。智象未来预计5月中旬推出C端视频生成类Agent应用,此前更侧重海外市场。上周,智象未来开源了image模型,目前在Hugging Face排名第三。

然而,多模态模型正面临开源势力冲击和大厂资源碾压的双重压力。行业深思:技术路线尚未收敛,算力成本高企,未来还需多久?中国创业者能否走出差异化路径?答案可能藏在下一个技术奇点中。

梅涛强调,工具革命不同于模式创新,需要耐心。智象未来计划打造全球化视频创作开发平台,为设计师提供低门槛工具,实现创意高效转化,并推动业务闭环。梅涛预计明年能看到雏形。

开源方面,智象未来认为开源能降低使用门槛,提升社区影响力。开源版本与Pro版并行,Pro版效果更优。此外,视频模型暂无开源计划,但会根据商业化情况调整。

智象未来的CTO姚霆表示,数据决定生成风格,叙事性是关键。视频模型参数量需平衡,过大会浪费资源,过小则无法充分表达内容。数据来源包括公开数据和合作影视公司数据。

针对市场竞争,梅涛认为大厂的优势在于场景、数据和资源,但反应速度不及初创公司。生态虽重要,但最终取决于产品和场景。目前多模态模型仍处于GPT 2阶段,未来需多个“aha moment”才能实现从模型到产品的飞跃。

原文链接
本文链接:https://kx.umi6.com/article/17128.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球顶尖AI科学家许主洪加盟阿里巴巴,担任阿里集团副总裁负责AI To C业务
2025-02-06 11:28:49
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
2024-06-20 16:45:01
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
2025-03-27 13:46:24
GPT-4o迷你版发布,ChatGPT杀死ChatGPT | 焦点分析
2024-07-19 11:33:58
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
谷歌深夜炸场:Gemini 2.0 正式发布,关键基准测试性能约为 1.5 Pro 两倍
2024-12-12 00:36:12
百度文心大模型 4.5 官宣 3 月 16 日发布,原生多模态、深度思考
2025-02-28 15:14:39
消息称小鹏机器人新成立“智能拟态部”,主攻机器人多模态
2025-07-25 17:29:22
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
「阶跃星辰」的一次豪赌
2025-05-21 08:55:53
Grok 4宣布全球免费使用
2025-08-11 11:04:47
豆包大模型1.6正式发布
2025-06-11 11:12:11
24小时热文
更多
扫一扫体验小程序