标题:字节开源GPT-4o级图像生成能力
正文:
字节近期开源了GPT-4o级别的图像生成能力,其最新推出的多模态模型BAGEL主打“大一统”,集成了带图推理、图像编辑、3D生成等功能。尽管活跃参数仅7B(总计14B),但其性能已超越或媲美众多顶级开源(如Stable Diffusion 3、FLUX.1)和闭源(如GPT-4o、Gemini 2.0)模型。模型发布后迅速登上Hugging Face趋势榜并引发热议,甚至有研究者表示字节技术领先行业整整一代。
BAGEL模型通过MoT架构实现多模态功能,由两个Transformer专家负责理解和生成,同时配备两个视觉编码器捕捉图像的像素级和语义级特征。模型采用“下一个token组预测范式”,基于Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2及FLUX.1-schnell VAE模型微调。训练过程中,团队发现BAGEL展现出一种“涌现能力”,即多模态理解和生成能力较早显现,基础编辑能力随后跟进,复杂编辑能力则在后期形成。
具体应用方面,BAGEL支持带图推理、无缝多轮对话、复杂图像编辑、人物表情转换、凭空造物等技能,还具备多视角合成和导航能力。在图像理解、生成、编辑任务中,BAGEL表现优异,多项基准测试中超越现有模型。目前,该模型已在Hugging Face上架,采用Apache 2.0许可证。
项目主页:https://bagel-ai.org/
论文:https://arxiv.org/abs/2505.14683
开源地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
原文链接
本文链接:https://kx.umi6.com/article/19185.html
转载请注明文章出处
相关推荐
换一换
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
从Figma到中国垂类应用全球崛起
2025-08-01 14:01:49
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
字节又一新模型Seedream 5.0上线 对标Nano Banana Pro
2026-02-10 14:19:52
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
谷歌推出Gemini 3.5系列模型
2026-05-20 08:24:34
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
消息称字节 Seed 多个机器人相关业务招一号位,成立独立公司
2025-06-27 19:11:41
大模型呼唤开源多模态 AI加速冲刺物理世界
2025-06-07 14:50:49
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
OpenAI 重申今夏推出最强模型 GPT-5,具备完整多模态 AI 能力
2025-07-07 21:35:27
别听模型厂商的,“提示”不是功能,是bug
2025-08-10 10:44:56
732 文章
688824 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41