中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

2026-03-30 14:53:39

量子思考者

发布在

科普

阅读：147

标题：让视频生成从「看起来真实」到「物理上正确」

正文：
当前视频生成技术常因缺乏物理规律理解而显得不真实。例如，蜂蜜倒入茶中可能突然断裂，冰块融化直接消失，玻璃球入水瞬间静止。这些问题源于模型依赖数据驱动的模式匹配，而非模拟真实过程。

四川大学雷印杰团队提出了一种新方法《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》，通过将复杂现象拆分为因果事件链，并结合物理规律约束，逐步生成视频内容。这种方法不仅追求画面真实，更注重变化过程符合现实逻辑，从而提升可信度和一致性。

实验显示，该方法在 PhyGenBench 数据集上取得 0.66 的得分，较此前最优方法提升 8.19%，相对基础模型提升超 30%。尤其在力学、光学、热学等场景中表现突出，物理顺序正确性显著增强。在 VideoPhy 数据集上，其语义与物理一致性达 49.3%，较最优方法提升 3.4%，流体相关场景提升超 10%。

消融实验表明，事件分解和关键帧生成模块对性能至关重要，去掉它们分别导致 11% 和 17% 的性能下降。此外，事件数量在 4 时达到最佳效果，过多或过少均影响性能。

研究流程包括文本理解、物理规律识别、事件链构建、关键帧生成及插值过渡。通过引入物理公式、因果结构建模和视觉锚点，模型从“生成合理结果”迈向“模拟真实过程”。

这一技术可广泛应用于短视频创作、教育演示、游戏开发及自动驾驶等领域，使生成内容更真实连贯。尽管在复杂多物理场景下仍有局限，但为未来研究指明方向。

通讯作者雷印杰为四川大学教授，长期从事人工智能研究，聚焦计算机视觉与多模态理解，主持多项国家级项目，推动学术与工程结合。

论文地址：https://arxiv.org/pdf/2603.09094

原文链接

本文链接：https://kx.umi6.com/article/34272.html

转载请注明文章出处

因果关系