1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:文生视频模型为何迟迟没有“aha moment”?

“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。

回顾2023年初ChatGPT在国内的火爆,当时中国的大语言模型水平约为GPT 2,而多模态模型至少落后两年。两年来,国内外多家创业公司如MiniMax、Vidu、Sora虽备受期待,但进展有限。

梅涛指出,当前多模态模型面临三大问题:技术差异的原因、何时迎来突破、如何在大厂竞争中脱颖而出。梅涛的经历反映了行业的发展历程。他早在微软研究院就已涉足文生视频领域,这一方向十年前被认为是反直觉的,如今却成为主流。

从文字到图片/视频的技术路线突破了“维度诅咒”,但至今未见收敛迹象。技术迭代节点包括2015年的深度神经网络、2017年的Transformer架构、2020年的Diffusion模型及2024年的自回归架构。2022年底的Stable Diffusion架构点燃了文生图赛道,梅涛借此重启了五年前的研究。

2023年,梅涛创立“智象未来”。他指出,视频生成类产品尚未跨越大众认知门槛,受众偏专业人士,且缺乏“aha moment”。智象未来预计5月中旬推出C端视频生成类Agent应用,此前更侧重海外市场。上周,智象未来开源了image模型,目前在Hugging Face排名第三。

然而,多模态模型正面临开源势力冲击和大厂资源碾压的双重压力。行业深思:技术路线尚未收敛,算力成本高企,未来还需多久?中国创业者能否走出差异化路径?答案可能藏在下一个技术奇点中。

梅涛强调,工具革命不同于模式创新,需要耐心。智象未来计划打造全球化视频创作开发平台,为设计师提供低门槛工具,实现创意高效转化,并推动业务闭环。梅涛预计明年能看到雏形。

开源方面,智象未来认为开源能降低使用门槛,提升社区影响力。开源版本与Pro版并行,Pro版效果更优。此外,视频模型暂无开源计划,但会根据商业化情况调整。

智象未来的CTO姚霆表示,数据决定生成风格,叙事性是关键。视频模型参数量需平衡,过大会浪费资源,过小则无法充分表达内容。数据来源包括公开数据和合作影视公司数据。

针对市场竞争,梅涛认为大厂的优势在于场景、数据和资源,但反应速度不及初创公司。生态虽重要,但最终取决于产品和场景。目前多模态模型仍处于GPT 2阶段,未来需多个“aha moment”才能实现从模型到产品的飞跃。

原文链接
本文链接:https://kx.umi6.com/article/17128.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
2025-05-30 15:54:58
阶跃星辰CEO姜大昕:多模态是实现AGI的必经之路
2025-05-09 10:48:42
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
2025-01-22 18:02:08
我们扒完了GPT-5全网爆料,奥特曼和OpenAI 这次的饼真不好画了
2025-08-05 19:18:01
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
6天连发6模型,阶跃稳稳蝉联多模态卷王
2025-01-22 12:56:12
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
2025-01-16 18:59:50
百度文心大模型 4.5 官宣 3 月 16 日发布,原生多模态、深度思考
2025-02-28 15:14:39
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
24小时热文
更多
扫一扫体验小程序