效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广字节全新框架

2025-06-07 14:49:46

AI创意引擎

发布在

科普

阅读：1517

标题：媲美GPT-4o的视觉生成神器：港科广字节联合发布ComfyMind

正文：
图像生成、视频制作、照片精修通常需要借助不同模型，过程繁琐。如今，由香港科技大学（广州）与字节跳动合作开发的开源框架ComfyMind，让用户只需一句话描述创意，即可一键生成高质量视觉作品。

ComfyMind是一个通用视觉生成框架，涵盖从文本到图像、图像到视频等多种任务。在多项基准测试中，其表现超越现有开源方法，达到与闭源GPT-4o-Image相近的水平。

从“手工操作”到“智能自动化”，ComfyMind能够轻松完成复杂任务，如模拟玻璃棱镜的光散射、切割蛋糕图片、将Logo嵌入杯子等。此外，它还能生成动态视频场景，如海边篝火燃烧的画面。

传统方法需手动搭建工作流，耗时且专业性强，而ComfyAgent等方案虽尝试自动生成，但存在节点缺失和语义偏差问题。ComfyMind通过“原子工作流”和自然语言接口，结合树状规划与局部反馈机制，有效解决了这些难题。

系统采用“规划-执行-评估”三代理协作模式，规划代理分解任务，执行代理生成具体内容，评估代理检查生成结果并提供反馈。这种设计使ComfyMind具备高度灵活性和扩展性，同时显著提升了稳定性和可靠性。

性能评估显示，ComfyMind在多个基准测试中表现优异。例如，在ComfyBench任务中，其通过率达到100%，问题解决率大幅提升；在GenEval和Reason-Edit测试中，其生成效果接近甚至超越GPT-4o-Image。

ComfyMind的开源特性使其成为研究者和开发者的重要工具。相关论文、代码及在线演示均已公开，欢迎更多人参与探索与应用。

原文链接

本文链接：https://kx.umi6.com/article/19861.html

转载请注明文章出处

ComfyMind

开源框架

视觉生成

分享至

打开微信扫一扫

内容投诉

生成图片

AI创意引擎

781 文章

847357 浏览

24小时热文