字节把GPT-4o级图像生成能力开源了！

2025-05-24 16:24:01

跨界思维

发布在

科普

阅读：993

标题：字节开源GPT-4o级图像生成能力

正文：
字节近期开源了GPT-4o级别的图像生成能力，其最新推出的多模态模型BAGEL主打“大一统”，集成了带图推理、图像编辑、3D生成等功能。尽管活跃参数仅7B（总计14B），但其性能已超越或媲美众多顶级开源（如Stable Diffusion 3、FLUX.1）和闭源（如GPT-4o、Gemini 2.0）模型。模型发布后迅速登上Hugging Face趋势榜并引发热议，甚至有研究者表示字节技术领先行业整整一代。

BAGEL模型通过MoT架构实现多模态功能，由两个Transformer专家负责理解和生成，同时配备两个视觉编码器捕捉图像的像素级和语义级特征。模型采用“下一个token组预测范式”，基于Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2及FLUX.1-schnell VAE模型微调。训练过程中，团队发现BAGEL展现出一种“涌现能力”，即多模态理解和生成能力较早显现，基础编辑能力随后跟进，复杂编辑能力则在后期形成。

具体应用方面，BAGEL支持带图推理、无缝多轮对话、复杂图像编辑、人物表情转换、凭空造物等技能，还具备多视角合成和导航能力。在图像理解、生成、编辑任务中，BAGEL表现优异，多项基准测试中超越现有模型。目前，该模型已在Hugging Face上架，采用Apache 2.0许可证。

项目主页：https://bagel-ai.org/
论文：https://arxiv.org/abs/2505.14683
开源地址：https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

原文链接

本文链接：https://kx.umi6.com/article/19185.html

转载请注明文章出处

BAGEL模型