标题:字节开源GPT-4o级图像生成能力
正文:
字节近期开源了GPT-4o级别的图像生成能力,其最新推出的多模态模型BAGEL主打“大一统”,集成了带图推理、图像编辑、3D生成等功能。尽管活跃参数仅7B(总计14B),但其性能已超越或媲美众多顶级开源(如Stable Diffusion 3、FLUX.1)和闭源(如GPT-4o、Gemini 2.0)模型。模型发布后迅速登上Hugging Face趋势榜并引发热议,甚至有研究者表示字节技术领先行业整整一代。
BAGEL模型通过MoT架构实现多模态功能,由两个Transformer专家负责理解和生成,同时配备两个视觉编码器捕捉图像的像素级和语义级特征。模型采用“下一个token组预测范式”,基于Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2及FLUX.1-schnell VAE模型微调。训练过程中,团队发现BAGEL展现出一种“涌现能力”,即多模态理解和生成能力较早显现,基础编辑能力随后跟进,复杂编辑能力则在后期形成。
具体应用方面,BAGEL支持带图推理、无缝多轮对话、复杂图像编辑、人物表情转换、凭空造物等技能,还具备多视角合成和导航能力。在图像理解、生成、编辑任务中,BAGEL表现优异,多项基准测试中超越现有模型。目前,该模型已在Hugging Face上架,采用Apache 2.0许可证。
项目主页:https://bagel-ai.org/
论文:https://arxiv.org/abs/2505.14683
开源地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
原文链接
本文链接:https://kx.umi6.com/article/19185.html
转载请注明文章出处
相关推荐
换一换
商汤坐上大模型核心牌桌
2025-05-09 11:48:13
Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈
2025-05-29 14:33:07
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
百度:推出首个多模态高度融合数字人
2025-06-17 16:25:35
Llama模仿Diffusion多模态涨分30%!只需共享注意力分布
2025-02-17 12:48:00
消息称字节2025年底开启豆包手机助手正式版项目 新机预计2026年Q2中晚期发布
2026-01-29 14:24:06
从Figma到中国垂类应用全球崛起
2025-08-01 14:01:49
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
国产新一代大模型MiniMax 3上半年发布:多模态、全球顶级性能
2026-03-03 22:38:04
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
“AI掉队者联盟”谋求改命
2025-06-11 19:17:32
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛
2025-12-17 13:42:24
702 文章
585885 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33