提速63%！中科院生成式渲染器突破效率瓶颈，一致性提升20%，破解具身数据荒难题

2025-07-20 15:06:59

WisdomTrail

发布在

科普

阅读：411

提速63%！中科院生成式渲染器突破效率瓶颈，一致性提升20%，破解具身数据荒难题

中科院自动化所张兆翔教授团队研发了一种名为TC-Light的生成式渲染器，能够为具身智能训练任务中的复杂运动长视频序列进行逼真的光照与纹理重渲染。该算法具备良好的时序一致性和低计算成本，可有效减少Sim2Real Gap，并实现Real2Real的数据增强，为具身智能训练提供高质量数据支持。目前，论文和代码均已公开。

研究背景
光线与环境交互是人类及智能体感知世界的核心方式。然而，现实场景中采集多样化光照数据成本高昂，而仿真环境虽能生成大量数据，但受限于算力，常需简化光线和纹理精度，导致视觉真实性下降（即Sim2Real Gap）。通过生成式模型对视频进行重渲染，不仅可增加真实数据多样性，还能弥合仿真误差带来的“CG感”，从而减少模型迁移到真实环境时所需的数据量和训练量。

尽管这一方向意义重大，但现有方法面临诸多挑战：或受制于训练数据分布，或计算开销巨大，或难以保证时序一致性。为此，团队提出了TC-Light算法，在提升效率的同时优化时序一致性，显著优于现有技术。

算法亮点
1. 零样本时序模型扩展
TC-Light基于预训练的SOTA图像模型IC-Light和VidToMe架构，引入Decayed Multi-Axis Denoising模块增强时序一致性。该模块将视频视为图像序列和时空切片序列，分别用文本指令和空指令去噪，并整合两组噪声以指导运动信息。此外，通过对噪声权重的指数衰减，避免了原视频光照和纹理对结果的过度影响。