综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月14日,微软发布自研AI文生图模型MAI-Image-1。该模型以生成逼真的图像著称,尤其擅长闪电、风景等场景,同时具备快速处理请求的能力,较“更大、更慢的模型”更具效率。目前,MAI-Image-1已在人工智能基准网站LMArena的同类模型中位列前十,展现出卓越性能。这一发布进一步巩固了微软在AI图像生成领域的竞争力。
原文链接
10月7日,谷歌宣布其图像生成AI模型Nano Banana(Gemini 2.5 Flash Image)正式开放商用,并新增批量处理和自定义长宽比功能。该模型自8月底预览以来已创作超50亿个作品,现可通过Gemini App、Google AI Studio等平台访问。正式版支持10种长宽比,包括电影比例、社交媒体配图等,满足多样化需求。模型适用于生产环境,受商业条款保护,收费为每百万Token 30美元,单张图片生成成本约0.039美元(约合0.28元人民币)。
原文链接
2025年9月30日,腾讯混元发布并开源了最新生图模型——混元图像3.0(HunyuanImage 3.0)。该模型参数规模达80B,是目前参数量最大的开源生图模型,融合理解与生成能力,效果媲美业界头部闭源模型。HunyuanImage 3.0支持多分辨率图像生成,具备强大的指令遵从、世界知识推理和文字渲染能力,可生成解方程步骤图、算法流程图等复杂内容,并提供极致美学风格。技术上基于Hunyuan-A13B架构,采用原生多模态设计和广义因果注意力机制,显著提升语义对齐与细节控制能力。模型训练历经四阶段预训练及多阶段后训练打磨,数据筛选严格且多样化。测评显示,其在机器指标和人工评测中均优于多个领先模型。项目已完全开源,代码与权重同步释出。
原文链接
8月中旬,匿名模型Nano Banana在海外AI测评平台LMArena引发关注,以卓越图像一致性和自然语言编辑能力击败众多对手,被网友称为“一致性之王”。其热度迅速蔓延至Reddit和Discord论坛,谷歌AI负责人Logan等人的暗示使其身份呼之欲出。8月27日,谷歌正式宣布Nano Banana为Gemini 2.5 Flash Image模型。上线一周内,该模型完成超2亿次编辑,吸引1000万新用户,甚至导致谷歌TPU过载。Nano Banana支持多元素拼接、OOTD生成、手办建模等功能,颠覆了图像创作与编辑领域。其技术突破包括多模态语义对齐、交错式生成及一致性保持能力,极大提升了用户体验。与此同时,Nano Banana的崛起冲击了电商模特、摄影师等职业,也推动产业重构。Adobe等工具型平台开始接入AI模型,提供更专业的解决方案。人与AI共生的时代正拉开帷幕。
原文链接
9月9日晚间,腾讯混元发布最新生图模型“混元图像2.1(HunyuanImage 2.1)”,支持最长1000个tokens提示词及原生2K图像生成。同时透露,其原生多模态图像生成模型正在开发中。此外,腾讯混元开源中英文改写模型“混元文本改写模型(PromptEnhancer)”,可优化用户文本指令结构。
原文链接
2025年9月,Nano Banana因其创新的AI图像生成技术引发热议。这款工具通过自然语言对话,让用户能快速生成和编辑高质量图像,吸引了大量非技术用户。其流畅的交互体验和几秒内的生成速度,带动Gemini App短时间内新增超1000万用户。Nano Banana优化了创作流程,支持角色一致性、多图融合及世界知识推理,被比作ChatGPT发布时刻。尽管官方未披露底层架构,但技术社区猜测其采用多模态扩散Transformer或结合大语言模型的设计。尽管在长文本渲染和复杂细节上仍有不足,Nano Banana标志着图像生成进入新阶段。
原文链接
2025年9月,谷歌推出nano banana官方Prompt模板,助力用户生成高质量图片。这一AI工具近日爆火,广泛应用于图像生成与处理,例如将照片转为手办模型、名画人物融入现代场景等创意玩法。谷歌提供的6套模板涵盖写实摄影、贴纸设计、文本渲染、商业摄影、极简留白和漫画分镜等场景,用户只需根据模板描述输入细节即可快速上手。示例包括日本陶艺家写实肖像、可爱风小熊猫贴纸及黑色电影风格漫画分镜等。通过API调用代码也能轻松实现自动化生图。谷歌此举降低了AI创作门槛,推荐收藏模板以供尝试。
原文链接
8月26日,谷歌发布其最新图像生成与编辑模型Gemini 2.5 Flash Image(代号“纳米香蕉”)。该模型在LMArena基准测试中排名AI图像编辑模型榜首,支持角色一致性保持、自然语言修图及多图融合,并借助Gemini世界知识提升智能表现。用户可通过Gemini App或API访问,API定价为每百万输出token 30美元。据官方估算,生成单张图片约消耗1290个输出token,成本约为0.039美元。这一工具的推出为图像创作和编辑领域带来全新可能性。
原文链接
8月7日,微软宣布Bing Image Creator免费接入OpenAI最新图像生成模型GPT-4o。该模型不再依赖DALL-E独立系统,能够更精准理解用户提示并生成细腻画面,但速度较DALL-E 3稍慢。更新后,平台同时保留旧版DALL-E 3和新版GPT-4o供用户选择,依旧免费提供每月15次快速生成额度,超出后需使用Microsoft Rewards积分,但仍支持不限次数的标准速度生成。新版功能可通过bing.com/create、Bing移动端或直接输入提示词访问。
原文链接
2025年8月5日,阿里通义千问团队开源首个图像生成基础模型Qwen-Image。该模型为20B参数的MMDiT模型,在复杂文本渲染和精确图像编辑方面表现突出,支持多行布局、段落级文本生成及细粒度细节呈现,尤其在中文高保真输出上领先现有模型。其在多个公开基准测试中取得SOTA性能,涵盖通用图像生成和图像编辑任务。Qwen-Image支持多种艺术风格生成与专业级编辑功能,如风格迁移、细节增强、文字编辑等。开源地址包括ModelScope、Hugging Face、GitHub等平台,同时提供技术报告与在线Demo。
原文链接
加载更多
暂无内容