
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月中旬,匿名模型Nano Banana在海外AI测评平台LMArena引发关注,以卓越图像一致性和自然语言编辑能力击败众多对手,被网友称为“一致性之王”。其热度迅速蔓延至Reddit和Discord论坛,谷歌AI负责人Logan等人的暗示使其身份呼之欲出。8月27日,谷歌正式宣布Nano Banana为Gemini 2.5 Flash Image模型。上线一周内,该模型完成超2亿次编辑,吸引1000万新用户,甚至导致谷歌TPU过载。Nano Banana支持多元素拼接、OOTD生成、手办建模等功能,颠覆了图像创作与编辑领域。其技术突破包括多模态语义对齐、交错式生成及一致性保持能力,极大提升了用户体验。与此同时,Nano Banana的崛起冲击了电商模特、摄影师等职业,也推动产业重构。Adobe等工具型平台开始接入AI模型,提供更专业的解决方案。人与AI共生的时代正拉开帷幕。
原文链接
2025年9月,Nano Banana因其创新的AI图像生成技术引发热议。这款工具通过自然语言对话,让用户能快速生成和编辑高质量图像,吸引了大量非技术用户。其流畅的交互体验和几秒内的生成速度,带动Gemini App短时间内新增超1000万用户。Nano Banana优化了创作流程,支持角色一致性、多图融合及世界知识推理,被比作ChatGPT发布时刻。尽管官方未披露底层架构,但技术社区猜测其采用多模态扩散Transformer或结合大语言模型的设计。尽管在长文本渲染和复杂细节上仍有不足,Nano Banana标志着图像生成进入新阶段。
原文链接
6月17日,Adobe宣布推出独立应用“Adobe Firefly”,支持安卓和iOS平台。这款应用提供生成式填充、扩展、文本生成图像/视频等功能,可移除照片干扰元素或添加新内容,还支持将图片延展以适应不同画幅,适合社交媒体创作。生成视频时长为5秒,支持OpenAI或谷歌模型的选择。Firefly基于去年10月发布的Adobe Firefly模型,此前部分功能已集成于Photoshop等软件中。应用默认使用Adobe自研模型,新用户可免费下载,但高级功能需购买积分,价格为每月4.99美元或每年49.99美元。目前仅支持英语、法语、德语和日语。
原文链接
5月16日,《科创板日报》报道,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),该模型已上线官网并开放注册。相比前代,混元图像2.0参数量提升十倍,实现毫秒级响应,支持实时语音或文字生成图片。测试显示,其在人物、动物特写及复古摄影领域表现优秀,生成图片质量接近电影级别。此次发布标志着腾讯重构混元大模型研发体系后的首个重要进展。两周前,腾讯成立大语言模型部和多模态模型部,加速AI技术研发。腾讯董事会主席马化腾表示,AI已对广告与游戏业务产生实际贡献,未来将进一步拓展AI应用场景,提升用户留存与活跃度。尽管AI整合仍在初期,但用户互动量正逐步增长。
原文链接
近日,华中科技大学盛建中团队研发的AI图像生成系统助力警方找回19名失踪儿童。该系统通过AI技术预测失踪儿童不同年龄段的样貌,解决模糊照片难题,团队还构建了40万人脸数据库并自研算法,修复千张走失儿童照片。此系统结合社会多方力量,推动寻亲进程。截至目前,已有包括孙卓在内的多名失踪多年的儿童与家人团聚。这项技术的应用展现了科技在社会公益领域的创新价值。
原文链接
4月30日,Freepik联合Fal.ai推出开源AI图像模型F Lite,基于内部8000万张商业许可及安全内容数据集训练,解决了版权法律风险问题。该模型参数达10B,提供标准版和纹理版两种选择,前者适合通用图像生成,后者强调纹理细节但可能产生畸形且不适于矢量风格。运行F Lite需至少24GB VRAM显卡,推荐使用详细提示词提升效果。Freepik还兼容ComfyUI工具并支持SuperPrompt功能扩展。模型采用CreativeML Open RAIL-M许可发布,核心组件T5 XXL和Flux Schnell VAE遵循Apache 2.0许可,大幅提高开放性和灵活性。
原文链接
3月27日,ChatGPT推出新AI图像生成器,可将图片转为吉卜力风格,引发广泛关注。该功能上线后,社交媒体迅速出现大量模仿《龙猫》《千与千寻》等经典动画的梗图,包括名人肖像。尽管OpenAI CEO山姆·奥尔特曼使用此类图像作为头像,但此举也触碰版权争议红线。根据知识产权律师埃文·布朗分析,虽然风格本身不受版权保护,但若训练数据涉及吉卜力电影内容,则可能构成侵权。目前,多家机构已起诉OpenAI,指控其未获授权便用版权作品训练AI。此外,Meta和Midjourney同样面临类似诉讼。OpenAI声明称,其服务避免复制个人艺术家风格,但允许模拟工作室风格。因需求激增,OpenAI推迟了免费用户的图像工具推广计划,其合法性仍有待司法裁决。
原文链接
AI图像生成平台LiblibAI宣布获得新一轮数亿元融资,巨人网络为本轮产业投资方。LiblibAI成立于2023年5月,致力于AI内容创作和分享,目标是革新设计师、画师及自媒体创作者的创作方式。截至目前,LiblibAI拥有超过2000万模型和图像创作者,日均创作交互数百万次。平台已为天猫校园、瑞幸咖啡、清华大学等提供AI图像解决方案,构建起完整的生态链。LiblibAI在一年内完成了四轮融资,投资方包括渶策资本、顺为资本等。巨人网络期待与LiblibAI合作,开拓AI图形与交互式内容应用。据预测,2029年中国生成式人工智能市场规模将达到98亿美元。
原文链接
微软于1月9日承认,必应AI图像生成器DALL-E 3模型升级至PR16版本后,因图像质量下降等问题引发用户不满。新版本生成的图像被批评为“像塑料一样,缺乏细节”,且人物图像不够真实,艺术风格和摄影技巧的模仿能力退步。此外,PR16版本还存在审查力度过猛的问题。目前微软已回滚至PR13版本,但全部用户完成回滚预计需2-3周时间,付费Copilot Pro用户可更快完成回滚。
原文链接
谷歌于12月17日发布了新的AI图像生成工具Whisk,用户可通过上传图片来生成新图像,无需冗长文本提示。Whisk支持多张图片作为提示,涵盖主题、场景和风格。若无合适图片,可点击骰子图标获取随机提示。用户也可在生成后通过输入文字调整细节。谷歌表示,Whisk适用于快速视觉探索,不适用于像素级精细编辑。该工具采用谷歌最新Imagen 3图像生成模型。尽管生成图像可能略显怪异,但易于修改。
原文链接
加载更多

暂无内容