1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谢赛宁团队新作:无需提示词精准控制3D画面

曾几何时,用文字生成图像已变得稀松平常。但你是否想过通过拖动方向键或滑块来直接操控画面?谢赛宁团队最新发布的Blender Fusion框架,结合图形工具(Blender)与扩散模型,让视觉合成不再依赖文本提示,实现了对3D画面的精准控制。

核心:高效组合现有技术

Blender Fusion的核心并非全新模型,而是对分割、深度估计、Blender渲染和扩散模型等技术的创新整合,形成了一套三步Pipeline:
1. 物体分层:利用Segment Anything Model(SAM)分割画面中的物体,并通过Depth Pro模型推断深度信息,将2D输入投影到3D空间。
2. Blender编辑:在Blender中对分离出的物体进行精细化编辑,包括颜色、纹理调整,甚至加入新物体或改变相机视角。
3. 生成式合成:使用扩散模型(如SD v2.1)对编辑后的粗渲染图像进行视觉增强,保持全局一致性的同时优化细节。

为提高效果,团队还引入了两项训练技巧:源遮挡(随机遮蔽部分源图以提升恢复能力)和模拟物体抖动(模拟随机偏移以增强解耦能力)。

应用场景丰富

Blender Fusion在多种场景中表现出色:
- 单幅图像处理:灵活变换物体位置、复制物体或改变视角。
- 多图像重组:将不同图像中的物体组合成全新场景。
- 泛化能力:成功应用于训练未见过的物体和场景。

这一框架让用户摆脱了复杂的提示词操作,像搭积木一样自由创作。无论是AI从业者还是普通用户,都能更直观地实现理想画面。

论文地址:https://arxiv.org/abs/2506.17450
项目页面:https://blenderfusion.github.io/#compositing

原文链接
本文链接:https://kx.umi6.com/article/21139.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谢赛宁团队新作:不用提示词精准实现3D画面控制
2025-07-03 15:23:42
阿里回应“C计划”爆料 夸克上线对话助手挑战豆包 AI App下一步如何进化?
2025-10-23 14:06:33
研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真
2025-10-22 20:51:26
OpenAI 预告“AI 浏览器”ChatGPT Atlas 未来更新:标签组、广告拦截器等
2025-10-24 09:30:10
马斯克详谈AI5芯片:由三星和台积电一起生产,不会弃用英伟达GPU!
2025-10-23 10:06:47
对冲基金大佬对AI热潮“敬而远之”,更青睐这项技术……
2025-10-23 16:10:22
田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了
2025-10-24 09:29:01
AI热潮带动业绩股价双升 微软CEO年薪跃升至近7亿
2025-10-22 17:51:04
美光出样 192GB SOCAMM2 内存模组:容量提升 50%,能效提升 20+%
2025-10-23 15:09:26
超800名科技领袖联合呼吁:停止研发超级智能
2025-10-22 18:51:33
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
荣耀与比亚迪达成战略合作,共同打造AI驱动的智慧出行新生态
2025-10-22 17:49:08
24小时热文
更多
扫一扫体验小程序