
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月26日,谷歌DeepMind发布Gemini 2.5 Flash图像编辑模型,支持基于文字指令的高精度修图,在多项任务中表现优于GPT-4o。新模型亮点包括“角色一致性”功能,可确保人物、动物或物体在多张图片中外观一致,适合批量制作品牌素材与产品目录。此外,它支持局部编辑、风格迁移以及简单因果推理(如生成气球撞向仙人掌的画面)。该功能已在Gemini应用上线,用户需切换至“Flash”模式使用,生成图像带水印。开发者可通过Gemini API等试用,费用为每百万token 30美元,单张图片约0.039美元。
原文链接
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
腾讯混元与InstantX团队合作推出开源插件InstantCharacter,实现定制化角色生成。该插件基于DiTs(Diffusion Transformers),能高效生成并编辑个性化角色图像。
传统方法存在...
原文链接
清华大学附属生数科技公司的AI视频生成平台Vidu已在全球正式上线。用户只需注册即可开始使用,无需排队等待,且提供每月80积分供免费体验(额外积分可通过付费订阅获取)。Vidu于4月份初次亮相时支持一键生成16秒视频,如今全面开放功能,新增了角色一致性、动漫风格及文字与特效画面生成,旨在提升用户体验...
原文链接
中山大学和联想团队合作开发的AutoStudio是一款革新性的AI系统,专长于连环画创作。它能保持角色一致性,即使在频繁切换主角和处理复杂人物互动时也能生成连贯的画面。AutoStudio无需训练,借助大语言模型的三个智能体(主题管理器、布局生成器和监督员)协同工作,以及扩散模型生成高质量图像。研究团队在CMIGBench基准测试中,AutoStudio在一致性评估指标上超越现有方法,尤其在处理多轮交互和复杂情节上表现出色,比如理解自然语言指令并生成一致性高的图像,比其他竞品如Theatergen、MiniGemini、Intelligent Grimm和StoryDiffusion更为优秀。
原文链接
加载更多

暂无内容