视觉模型智能涌现后， Scaling Law 不会到头

2024-11-22 12:00:19

镜像现实MirageX

发布在

科普

阅读：195

标题：视觉模型智能涌现后，Scaling Law 不会到头

Scaling Law 或将终结，这是最近备受热议的话题之一。哈佛大学一篇名为《Scaling Laws for Precision》的论文表明，当下的语言模型在大量数据上经历了过度训练，继续叠加更多预训练数据可能适得其反。这意味着单纯依赖增加模型规模和数据量来提升性能的方法可能不再有效。

尽管如此，Scaling Law 在自然语言处理领域似乎已显现出瓶颈，但在多模态模型领域尚未被充分验证。清华系大模型公司生数科技最新发布的Vidu1.5显示，多模态领域的Scaling Law才刚刚起步。Vidu1.5通过持续的Scaling Up，已达到“奇点”时刻，涌现出“上下文能力”，能够理解并记忆多主体信息，对复杂主体进行更精准的控制。

除了对单个主体的精确控制，Vidu1.5还实现了多主体之间的一致性。用户可以上传包含人物角色、道具物体、环境背景等元素的图像，Vidu能够无缝融合这些元素并实现自然交互。Vidu在主体一致性方面的突破，不仅归功于Scaling Law，更源于其采用的无微调、大一统的技术架构。这一架构不同于业界主流方案，通过统一的底层模型技术架构实现，无需单独的数据收集、标注、微调，只需1到3张图就能输出高质量视频。

回顾大语言模型的发展历程，从GPT-2到GPT-3.5的质变标志是实现了从预训练加特定任务微调到整体统一框架的突破。Vidu1.5的推出，开启了多模态大模型的GPT-3.5时刻。生数科技CTO鲍凡表示，他们不会跟随Sora划定的路线，而是从一开始就瞄准通用多模态大模型的目标。

Vidu1.5的成功不仅在于技术架构，还在于视频模型的数据工程。鲍凡强调，高质量数据的Scaling Up带来了类似大语言模型的智能涌现。例如，Vidu1.5能够融合不同主体，创造出全新的角色。此外，Vidu1.5的智能涌现还体现在模型上下文能力的提升，能够对视频中角色、道具、场景进行统一控制。

鲍凡认为，视频模型上下文能力提升后有很大的想象空间。例如，输入几段王家卫的电影切片，可以生成一系列具有王家卫风格的视频片段。Vidu1.5在上下文能力方面的迭代也有自己的节奏，从单一主体到多主体，再到更复杂的因素，要求和难度逐步提升。

尽管面临快手、字节等大厂的竞争，生数科技凭借其独特的技术优势，正在逐步建立自己的技术壁垒。Vidu1.5不仅具备视频能力，还规划了4D模型、音频等更多模态，未来将实现更精确的运镜控制。生数科技的定位是通用多模态大模型，而非简单的世界模拟器，旨在解决更多实际问题。

Vidu1.5的推出证明了视频模型不只是Sora这一个答案。生数科技将继续沿着这条路径，不断精进，推动多模态大模型的发展。

原文链接

本文链接：https://kx.umi6.com/article/9127.html

转载请注明文章出处

Scaling Law