提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题
中科院自动化所张兆翔教授团队研发了一种名为TC-Light的生成式渲染器,能够为具身智能训练任务中的复杂运动长视频序列进行逼真的光照与纹理重渲染。该算法具备良好的时序一致性和低计算成本,可有效减少Sim2Real Gap,并实现Real2Real的数据增强,为具身智能训练提供高质量数据支持。目前,论文和代码均已公开。
研究背景
光线与环境交互是人类及智能体感知世界的核心方式。然而,现实场景中采集多样化光照数据成本高昂,而仿真环境虽能生成大量数据,但受限于算力,常需简化光线和纹理精度,导致视觉真实性下降(即Sim2Real Gap)。通过生成式模型对视频进行重渲染,不仅可增加真实数据多样性,还能弥合仿真误差带来的“CG感”,从而减少模型迁移到真实环境时所需的数据量和训练量。
尽管这一方向意义重大,但现有方法面临诸多挑战:或受制于训练数据分布,或计算开销巨大,或难以保证时序一致性。为此,团队提出了TC-Light算法,在提升效率的同时优化时序一致性,显著优于现有技术。
算法亮点
1. 零样本时序模型扩展
TC-Light基于预训练的SOTA图像模型IC-Light和VidToMe架构,引入Decayed Multi-Axis Denoising模块增强时序一致性。该模块将视频视为图像序列和时空切片序列,分别用文本指令和空指令去噪,并整合两组噪声以指导运动信息。此外,通过对噪声权重的指数衰减,避免了原视频光照和纹理对结果的过度影响。
- 两阶段时序一致性优化
- 第一阶段:为每帧引入Appearance Embedding调整曝光度,并利用光流优化帧间一致性,快速完成全局光照对齐。
- 第二阶段:基于光流和像素位置信息压缩视频为码本,优化光照和纹理细节。这种方法避免了传统NeRF或3DGS的高显存和时间开销,同时保持高质量输出。
实验结果
团队在多个数据集上测试了58个长动态序列,结果显示TC-Light在时序一致性和计算效率方面均显著优于现有算法。其生成结果自然、清晰,避免了模糊失真和时序跳变问题。
总结
TC-Light通过高效的两阶段优化策略,解决了长视频重渲染中的时序一致性和计算开销难题,为Sim2Real和Real2Real数据扩展提供了新思路,同时也为视频编辑领域带来了创新范式。项目主页、论文和代码均已开源,欢迎访问了解更多信息。
项目主页: https://dekuliutesla.github.io/tclight/
论文链接: https://arxiv.org/abs/2506.18904
代码链接: https://github.com/Linketic/TC-Light
.png)

-
2025-07-20 20:08:46
-
2025-07-20 20:07:36
-
2025-07-20 19:08:20