谢赛宁团队新作：不用提示词精准实现3D画面控制

2025-07-03 15:23:42

智慧棱镜

发布在

科普

阅读：341

谢赛宁团队新作：无需提示词精准控制3D画面

曾几何时，用文字生成图像已变得稀松平常。但你是否想过通过拖动方向键或滑块来直接操控画面？谢赛宁团队最新发布的Blender Fusion框架，结合图形工具（Blender）与扩散模型，让视觉合成不再依赖文本提示，实现了对3D画面的精准控制。

核心：高效组合现有技术

Blender Fusion的核心并非全新模型，而是对分割、深度估计、Blender渲染和扩散模型等技术的创新整合，形成了一套三步Pipeline：
1. 物体分层：利用Segment Anything Model（SAM）分割画面中的物体，并通过Depth Pro模型推断深度信息，将2D输入投影到3D空间。
2. Blender编辑：在Blender中对分离出的物体进行精细化编辑，包括颜色、纹理调整，甚至加入新物体或改变相机视角。
3. 生成式合成：使用扩散模型（如SD v2.1）对编辑后的粗渲染图像进行视觉增强，保持全局一致性的同时优化细节。

为提高效果，团队还引入了两项训练技巧：源遮挡（随机遮蔽部分源图以提升恢复能力）和模拟物体抖动（模拟随机偏移以增强解耦能力）。