标题:让视频生成从「看起来真实」到「物理上正确」
正文:
当前视频生成技术常因缺乏物理规律理解而显得不真实。例如,蜂蜜倒入茶中可能突然断裂,冰块融化直接消失,玻璃球入水瞬间静止。这些问题源于模型依赖数据驱动的模式匹配,而非模拟真实过程。
四川大学雷印杰团队提出了一种新方法《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》,通过将复杂现象拆分为因果事件链,并结合物理规律约束,逐步生成视频内容。这种方法不仅追求画面真实,更注重变化过程符合现实逻辑,从而提升可信度和一致性。
实验显示,该方法在 PhyGenBench 数据集上取得 0.66 的得分,较此前最优方法提升 8.19%,相对基础模型提升超 30%。尤其在力学、光学、热学等场景中表现突出,物理顺序正确性显著增强。在 VideoPhy 数据集上,其语义与物理一致性达 49.3%,较最优方法提升 3.4%,流体相关场景提升超 10%。
消融实验表明,事件分解和关键帧生成模块对性能至关重要,去掉它们分别导致 11% 和 17% 的性能下降。此外,事件数量在 4 时达到最佳效果,过多或过少均影响性能。
研究流程包括文本理解、物理规律识别、事件链构建、关键帧生成及插值过渡。通过引入物理公式、因果结构建模和视觉锚点,模型从“生成合理结果”迈向“模拟真实过程”。
这一技术可广泛应用于短视频创作、教育演示、游戏开发及自动驾驶等领域,使生成内容更真实连贯。尽管在复杂多物理场景下仍有局限,但为未来研究指明方向。
通讯作者雷印杰为四川大学教授,长期从事人工智能研究,聚焦计算机视觉与多模态理解,主持多项国家级项目,推动学术与工程结合。
论文地址:https://arxiv.org/pdf/2603.09094
-
2026-03-30 20:06:34 -
2026-03-30 19:03:53 -
2026-03-30 19:02:43