
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月,谷歌推出nano banana官方Prompt模板,助力用户生成高质量图片。这一AI工具近日爆火,广泛应用于图像生成与处理,例如将照片转为手办模型、名画人物融入现代场景等创意玩法。谷歌提供的6套模板涵盖写实摄影、贴纸设计、文本渲染、商业摄影、极简留白和漫画分镜等场景,用户只需根据模板描述输入细节即可快速上手。示例包括日本陶艺家写实肖像、可爱风小熊猫贴纸及黑色电影风格漫画分镜等。通过API调用代码也能轻松实现自动化生图。谷歌此举降低了AI创作门槛,推荐收藏模板以供尝试。
原文链接
8月26日,谷歌发布其最新图像生成与编辑模型Gemini 2.5 Flash Image(代号“纳米香蕉”)。该模型在LMArena基准测试中排名AI图像编辑模型榜首,支持角色一致性保持、自然语言修图及多图融合,并借助Gemini世界知识提升智能表现。用户可通过Gemini App或API访问,API定价为每百万输出token 30美元。据官方估算,生成单张图片约消耗1290个输出token,成本约为0.039美元。这一工具的推出为图像创作和编辑领域带来全新可能性。
原文链接
8月7日,微软宣布Bing Image Creator免费接入OpenAI最新图像生成模型GPT-4o。该模型不再依赖DALL-E独立系统,能够更精准理解用户提示并生成细腻画面,但速度较DALL-E 3稍慢。更新后,平台同时保留旧版DALL-E 3和新版GPT-4o供用户选择,依旧免费提供每月15次快速生成额度,超出后需使用Microsoft Rewards积分,但仍支持不限次数的标准速度生成。新版功能可通过bing.com/create、Bing移动端或直接输入提示词访问。
原文链接
2025年8月5日,阿里通义千问团队开源首个图像生成基础模型Qwen-Image。该模型为20B参数的MMDiT模型,在复杂文本渲染和精确图像编辑方面表现突出,支持多行布局、段落级文本生成及细粒度细节呈现,尤其在中文高保真输出上领先现有模型。其在多个公开基准测试中取得SOTA性能,涵盖通用图像生成和图像编辑任务。Qwen-Image支持多种艺术风格生成与专业级编辑功能,如风格迁移、细节增强、文字编辑等。开源地址包括ModelScope、Hugging Face、GitHub等平台,同时提供技术报告与在线Demo。
原文链接
8月5日,阿里通义千问Qwen开源了全新文生图模型Qwen-Image,这是一个20B参数的MMDiT模型,也是通义千问系列中首个图像生成基础模型。Qwen-Image在复杂文本渲染和精确图像编辑方面表现优异,通过增强的多任务训练范式,能够保持编辑一致性。在多个公开基准测试中,该模型在各类生成与编辑任务中均达到SOTA(当前最优)水平,展现出强大的性能。这一开源发布为图像生成领域提供了重要工具,并有望推动相关技术进一步发展。
原文链接
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
图像生成不仅需要高质量,还需要高效率。腾讯混元基础模型团队提出了一种全新框架——MixGRPO,通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略优化了训练流程,在提升效率的同时还增强了性能。此外,团队还...
原文链接
2025年7月3日,智源研究院发布国产开源统一图像生成模型OmniGen2,上线一周GitHub星标突破2000。新版本显著提升上下文理解、指令遵循和图像生成质量,支持文生图、图像编辑及主题驱动生成,打通多模态技术生态。OmniGen2采用分离式架构与双编码器策略,并引入‘反思机制’优化生成能力,同时发布新基准OmniContext评估模型性能,取得7.18分领先成绩。模型权重、训练代码及数据全面开源,科研体验版已开放,链接见官方发布。
原文链接
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。比如,以往给AI这样一句Prompt:“(3+6)条命的动物。”人类一眼知道是猫咪,但AI可能将其理解为单纯的数学题。传统AI生成的猫图虽形象,但未真正理解“九条命=猫”的含义。
为解决这一...
原文链接
6月17日,Adobe宣布推出独立应用“Adobe Firefly”,支持安卓和iOS平台。这款应用提供生成式填充、扩展、文本生成图像/视频等功能,可移除照片干扰元素或添加新内容,还支持将图片延展以适应不同画幅,适合社交媒体创作。生成视频时长为5秒,支持OpenAI或谷歌模型的选择。Firefly基于去年10月发布的Adobe Firefly模型,此前部分功能已集成于Photoshop等软件中。应用默认使用Adobe自研模型,新用户可免费下载,但高级功能需购买积分,价格为每月4.99美元或每年49.99美元。目前仅支持英语、法语、德语和日语。
原文链接
5月21日,OpenAI宣布扩展Responses API,新增多项功能支持开发者构建更智能的应用。新功能包括远程连接MCP服务器、图像生成(基于gpt-image-1模型)、Code Interpreter工具以及文件搜索优化。Responses API现全面支持GPT-4o系列和GPT-4.1系列模型。开发者可通过几行代码连接Cloudflare、HubSpot、Stripe等MCP服务器,快速访问数据源。图像生成工具支持实时流式预览与多轮编辑,Code Interpreter助力复杂数学与编码问题解决,文件搜索支持多向量存储与属性过滤。此外,API新增后台模式处理长时间任务,推理摘要功能用自然语言总结推理过程,加密推理项保障Zero Data Retention用户在无数据存储情况下复用推理项,降低延迟与成本。
原文链接
加载更多

暂无内容
AI热搜
更多
