2025年10月29日,苹果公司发布Pico-Banana-400K数据集,包含40万张图像,用于训练文本引导的AI图像编辑模型。该数据集基于谷歌Gemini-2.5模型构建,采用非商业性研究许可,供学术研究使用。苹果团队从OpenImages中选取多样化真实照片,并设计35种编辑指令,涵盖像素调整、场景编辑等八大类别。通过Nanon-Banana模型生成编辑结果后,由Gemini 2.5-Pro进行质量评估,确保数据准确性。数据集包括单轮与多轮编辑样本及偏好对比对,助力解决现有数据集领域偏移等问题。相关论文已发布于arXiv,数据集在GitHub免费开放。
原文链接
本文链接:https://kx.umi6.com/article/27450.html
转载请注明文章出处
相关推荐
换一换
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
阿里通义 Qwen-lmage-Edit-2511 图像编辑 AI 模型开源,支持两人隔空“合照”
2025-12-25 17:49:41
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
2025-08-27 16:05:56
谷歌Gemini2.0新神技,难评
2025-03-17 22:00:35
阿里通义千问:推出图像编辑模型Qwen-Image-Edit
2025-08-19 09:59:40
空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
2024-11-26 21:39:56
苹果全能视觉 AI 模型 UniGen 1.5 亮相,看图、修图、绘图三合一
2025-12-19 08:35:06
字节跳动发布图像编辑模型SeedEdit 3.0
2025-06-06 16:38:41
华为云CEO周跃峰:加速医疗AI落地,共建共享行业模型、高质量数据集等
2026-02-02 13:38:37
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频
2025-02-17 09:42:01
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
2025-08-19 16:06:04
谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项表现优于 GPT-4o
2025-08-27 09:00:44
717 文章
634237 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13