图像编辑 - AI优秘圈

这个春节P图不求人！小红书开源图像编辑新SOTA

正文：2026年2月，小红书开源了全新图像编辑模型FireRed-Image-Edit，该模型在复杂指令处理、风格化转换及文字编辑等核心指标上表现优异，达到业界领先水平（SOTA）。团队还推出了全新的评测标准RedEdit Bench，覆盖15个子任务，包括人像美化和低画质增强等高频场景。模型采用三阶段训练法，并通过创新的数据引擎提升编辑精度。目前，项目代码、技术报告及Demo已全面开源，模型权重也将于近期发布。未来几个月，团队计划持续优化并推出更新版本，进一步提升人像美化和文字编辑能力。

原文链接

梦境编程师

02-12 20:41:16

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义 Qwen-lmage-Edit-2511 图像编辑 AI 模型开源，支持两人隔空“合照”

12月25日，阿里通义千问宣布开源图像编辑AI模型Qwen-Image-Edit-2511。该版本在角色一致性、工业设计能力及几何推理能力等方面进行了显著提升，尤其在多人合照生成中表现优异，可实现两张人物照片的高质量合照效果。此外，新模型集成了Lora能力，支持打光、多场景应用等特效，并可直接生成辅助线效果，适用于工业产品设计与材质替换等工程场景。Qwen-Image-Edit-2511已在ModelScope和Hugging Face平台开源，为开发者提供强大工具。

原文链接

AI奇点纪元

12-25 17:49:41

分享至

打开微信扫一扫

内容投诉

生成图片

修图 AI 模型 Qwen-Image-Edit-2511 开源上线：提升角色一致性、增强几何推理

12月23日，阿里通义Qwen团队发布全新图像编辑模型Qwen-Image-Edit-2511。该模型在前代基础上优化了角色一致性、几何推理能力，并新增LoRA集成，适用于精准图像修改场景。其亮点在于强大的指令遵循能力，用户只需输入自然语言指令（如“将猫换成狗”），即可自动完成复杂编辑，无需掌握专业修图技术。新模型还能高保真融合多人合影，保留光影与纹理一致性，并支持开箱即用的光照增强等功能。此外，其强化的几何推理能力可生成辅助构造线，助力工业设计。此次开源上线为开发者和设计师提供了高效AI工具，进一步推动视觉生成领域发展。

原文链接

智能维度跳跃

12-25 15:42:29

分享至

打开微信扫一扫

内容投诉

生成图片

苹果全能视觉 AI 模型 UniGen 1.5 亮相，看图、修图、绘图三合一

12月18日，苹果研究团队发布全新多模态AI模型UniGen 1.5，成功在单一系统中集成图像理解、生成与编辑三大功能。该模型通过“编辑指令对齐”技术提升图像修改精准度，并设计统一奖励系统优化训练过程。测试显示，UniGen 1.5在GenEval和DPG-Bench基准中分别获得0.89和86.83高分，在ImgEdit专项测试中表现优于多个开源及闭源模型。然而，模型仍存在局限性，如生成图片文字易出错及主体特征漂移问题，团队计划进一步优化。这一成果为视觉AI领域带来重要突破。

原文链接

元界筑梦师

12-19 08:35:06

分享至

打开微信扫一扫

内容投诉

生成图片

美团发布并开源 LongCat-Image 图像生成模型，编辑能力登顶开源 SOTA

12月8日，美团LongCat团队发布并开源图像生成模型LongCat-Image。该模型以6B参数规模，在文生图和图像编辑能力上逼近大尺寸模型效果，并在多个基准测试中达到开源SOTA水平。其亮点包括高度可控的图像编辑能力和精准覆盖中文文字生成，特别是在复杂汉字渲染与生僻字支持方面表现突出。通过渐进式学习、多任务联合训练及创新数据策略，模型在指令遵循、视觉一致性及纹理真实感等方面显著提升。客观评测显示，LongCat-Image在ImgEdit-Bench、GEdit-Bench等测试中领先开源模型，接近闭源头部模型。此外，美团全面开源了多阶段模型，鼓励开发者参与共建，推动视觉生成技术发展。项目已上线Hugging Face和GitHub。

原文链接

AI创想团

12-08 10:19:43

分享至

打开微信扫一扫

内容投诉

生成图片

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

2025年11月，兔展智能与北京大学联合发布图像编辑模型UniWorld-V2，刷新多项SOTA成绩。该模型在中文细节控制和复杂指令理解上表现优异，例如精准修改手势、渲染艺术中文字体及实现精细化空间编辑。其核心创新为UniWorld-R1框架，首次将强化学习应用于统一架构的图像编辑，采用扩散负向感知微调（DiffusionNFT）技术，并使用多模态大语言模型（MLLM）作为免训练奖励模型。在GEdit-Bench和ImgEdit基准测试中，UniWorld-V2分别以7.83分和4.49分超越OpenAI的GPT-Image-1等顶尖模型。研究团队还公开了论文、代码及模型，供后续研究使用。

原文链接

智慧棱镜

11-05 15:09:36

分享至

打开微信扫一扫

内容投诉

生成图片

苹果发布 Pico-Banana-400K 数据集：含 40 万张图像，帮助训练 AI 图像编辑模型

2025年10月29日，苹果公司发布Pico-Banana-400K数据集，包含40万张图像，用于训练文本引导的AI图像编辑模型。该数据集基于谷歌Gemini-2.5模型构建，采用非商业性研究许可，供学术研究使用。苹果团队从OpenImages中选取多样化真实照片，并设计35种编辑指令，涵盖像素调整、场景编辑等八大类别。通过Nanon-Banana模型生成编辑结果后，由Gemini 2.5-Pro进行质量评估，确保数据准确性。数据集包括单轮与多轮编辑样本及偏好对比对，助力解决现有数据集领域偏移等问题。相关论文已发布于arXiv，数据集在GitHub免费开放。

原文链接

电子诗篇

10-29 09:42:14

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌nano banana火爆出圈 AI应用有望站上市场风口

当地时间8月26日，谷歌发布先进图像生成与编辑模型Gemini 2.5 Flash Image（代号nano banana），因惊艳效果迅速出圈。该模型支持多图拼接、地理与物理逻辑理解，可将二维地图转为三维景观，且能通过自然语言指令快速生成高分辨率图片，单张成本约0.3元人民币，效率大幅提升。其应用有望加速落地于电商、广告、设计等领域。相关上市公司中，虹软科技智能商拍平台PSAI于8月1日上线，主打“AI生成+修复”；万兴科技推出AI绘画软件万兴爱画，可在30秒内生成定制艺术作品。AI修图技术正站上市场风口。

原文链接

DreamCoder

09-01 08:15:00

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌认领最强AI版Photoshop！现在人人可用，效果确实强悍

2025年8月26日，谷歌官方确认此前爆火的神秘图像编辑模型nano-banana实为Gemini 2.5 Flash Image。该模型具备强大的图像编辑能力，可合并多张图片生成新内容、实现超现实艺术创作及2D到3D转换，甚至展现高超的图像推理能力。用户现可在Gemini和Google AI Studio上免费使用，API价格为每张图像0.039美元。Nano-banana最初以匿名形式出现在LMArena竞赛平台，因表现优异引发广泛关注。谷歌表示，匿名发布是为全球规模发布做准备。尽管模型功能强大，但部分用户对其服务政策提出质疑。网友期待完整版发布，同时称其可能威胁传统图像编辑工具如Photoshop的地位。

原文链接

虚拟织梦者

08-27 16:05:56

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 2.5 Flash 升级 AI 修图功能，多项表现优于 GPT-4o

8月26日，谷歌DeepMind发布Gemini 2.5 Flash图像编辑模型，支持基于文字指令的高精度修图，在多项任务中表现优于GPT-4o。新模型亮点包括“角色一致性”功能，可确保人物、动物或物体在多张图片中外观一致，适合批量制作品牌素材与产品目录。此外，它支持局部编辑、风格迁移以及简单因果推理（如生成气球撞向仙人掌的画面）。该功能已在Gemini应用上线，用户需切换至“Flash”模式使用，生成图像带水印。开发者可通过Gemini API等试用，费用为每百万token 30美元，单张图片约0.039美元。

原文链接

智能维度跳跃

08-27 09:00:44

分享至

打开微信扫一扫

内容投诉

生成图片