
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,谷歌DeepMind团队在最新开发者节目中展示了Gemini 2.5 Flash Image模型,该模型具备原生图像生成与编辑能力,支持多轮对话式场景一致性操作,堪称图像生成领域的革命性突破。其亮点包括创意解读模糊指令、文本渲染改进及复杂任务的交错生成机制,适用于家居设计、人物OOTD等场景。团队核心成员包括Logan Kilpatrick、Kaushik Shivakumar、Robert Riachi、Nicole Brichtova和Mostafa Dehghani,他们在AI、多模态学习等领域有深厚积累。相比专注文本到图像的Imagen,Gemini更适合复杂多模态任务,未来目标是迈向通用人工智能(AGI)。
原文链接
8月中旬,一款名为nano-banana的匿名模型在LMArena平台盲测中因惊人效果引发关注,用户争相测试。北京时间8月27日,谷歌认领该模型,正式发布为Gemini 2.5 Flash Image,可在Gemini app等平台使用。其核心技术亮点包括颠覆性一致性、自然语言驱动编辑和闪电速度响应。实测显示,模型在多图融合和一致性上表现优异,但部分任务如商品尺寸调整翻车。此次发布采用匿名盲测到官方认领策略,借助社区传播形成病毒式扩散,被称为“一致性之王”。这一模式为AI模型发布提供了新思路。
原文链接
8月26日,谷歌发布其最新图像生成与编辑模型Gemini 2.5 Flash Image(代号“纳米香蕉”)。该模型在LMArena基准测试中排名AI图像编辑模型榜首,支持角色一致性保持、自然语言修图及多图融合,并借助Gemini世界知识提升智能表现。用户可通过Gemini App或API访问,API定价为每百万输出token 30美元。据官方估算,生成单张图片约消耗1290个输出token,成本约为0.039美元。这一工具的推出为图像创作和编辑领域带来全新可能性。
原文链接
加载更多

暂无内容