谢赛宁团队新作:无需提示词精准控制3D画面
曾几何时,用文字生成图像已变得稀松平常。但你是否想过通过拖动方向键或滑块来直接操控画面?谢赛宁团队最新发布的Blender Fusion框架,结合图形工具(Blender)与扩散模型,让视觉合成不再依赖文本提示,实现了对3D画面的精准控制。
核心:高效组合现有技术
Blender Fusion的核心并非全新模型,而是对分割、深度估计、Blender渲染和扩散模型等技术的创新整合,形成了一套三步Pipeline:
1. 物体分层:利用Segment Anything Model(SAM)分割画面中的物体,并通过Depth Pro模型推断深度信息,将2D输入投影到3D空间。
2. Blender编辑:在Blender中对分离出的物体进行精细化编辑,包括颜色、纹理调整,甚至加入新物体或改变相机视角。
3. 生成式合成:使用扩散模型(如SD v2.1)对编辑后的粗渲染图像进行视觉增强,保持全局一致性的同时优化细节。
为提高效果,团队还引入了两项训练技巧:源遮挡(随机遮蔽部分源图以提升恢复能力)和模拟物体抖动(模拟随机偏移以增强解耦能力)。
应用场景丰富
Blender Fusion在多种场景中表现出色:
- 单幅图像处理:灵活变换物体位置、复制物体或改变视角。
- 多图像重组:将不同图像中的物体组合成全新场景。
- 泛化能力:成功应用于训练未见过的物体和场景。
这一框架让用户摆脱了复杂的提示词操作,像搭积木一样自由创作。无论是AI从业者还是普通用户,都能更直观地实现理想画面。
论文地址:https://arxiv.org/abs/2506.17450
项目页面:https://blenderfusion.github.io/#compositing
原文链接
本文链接:https://kx.umi6.com/article/21139.html
转载请注明文章出处
相关推荐
换一换
谢赛宁团队新作:不用提示词精准实现3D画面控制
2025-07-03 15:23:42
国产滤波器企业新声半导体完成2.69亿元C轮融资
2025-12-08 18:39:38
苹果陷AI困局 iPhone用户出现倒戈潮
2025-12-07 16:37:13
厦门“十五五”规划建议:强化算力、算法、数据等高效供给 发展壮大数字经济核心产业
2025-12-08 14:32:20
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
2025-12-08 14:30:13
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
2025-12-06 10:23:57
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
“人工智能教父” 辛顿:即便 AI 重塑编程行业,计算机科学学位仍具重要价值
2025-12-08 08:12:37
陕西“十五五”规划建议:组建陕西人工智能产业联盟 打造西部人工智能发展高地
2025-12-08 09:18:51
Oculus 创始人拉奇为在战争中使用 AI 辩护:使用落后技术并无道德高地可言
2025-12-08 09:15:22
全球首个光子芯片全链垂直大模型 LightSeek 开放:整合国内首条中试线数据,整体研发效率提升 7 倍
2025-12-08 18:40:02
用 AI 合成死螃蟹视频骗退款 195 元,买家被行拘 8 日
2025-12-05 23:56:50
设立河南首支AI基金,领投众擎赋能产业生态
2025-12-08 15:33:26
609 文章
338906 浏览
24小时热文
更多
-
2025-12-08 18:41:52 -
2025-12-08 18:40:45 -
2025-12-08 18:40:02