综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月15日,X平台宣布收紧Grok AI的图像编辑与生成功能,禁止对现实人物照片进行编辑,尤其是涉及比基尼等暴露服装的内容,覆盖所有用户。同时,Grok的图像生成功能被纳入付费订阅体系,非付费用户将无法使用。在法律明确禁止的地区,X还将封锁生成相关图像的能力。此前,加州总检察长指出,圣诞节至新年期间xAI生成的约20000张图像中,超过一半涉及穿着极少的人物,包括疑似未成年人形象,加州已对此展开调查。X声明强调对儿童剥削行为零容忍,并持续清理违规内容。马斯克回应称,启用NSFW选项时,Grok应仅生成虚构成年人的上半身裸露内容,且会依据地区法律调整限制。
原文链接
12月31日,阿里开源新一代图像生成模型Qwen-Image-2512,大幅提升人物肌肤、发丝细节及复杂文字渲染效果,生成图片堪比真实摄影。该模型支持漫画风格PPT、信息图等复杂图像创作,满足专业设计需求。在AI Arena评测中,Qwen-Image-2512盲测超万轮,位居开源模型榜首,性能超越多个闭源商用模型。新模型显著降低“AI感”,精准还原皮肤纹理、宠物毛发等细节,效果接近实拍。此外,千问图像模型矩阵已全面开源,开发者可通过魔搭社区或阿里云百炼调用,普通用户可在千问APP体验。截至2025年底,阿里开源近400个Qwen模型,全球下载量超7亿,服务超100万家企业客户,稳居中国企业级大模型市场首位。
原文链接
正文:12月31日,阿里通义大模型开源发布Qwen-Image-2512,聚焦三大核心能力提升:更真实的人物质感、更细腻的自然纹理和更复杂的文字渲染。新模型可精准刻画皮肤、发丝及表情,理解语义细节,并细腻呈现水流、苔藓等自然纹理,还能生成多格漫画和技术图表等内容。在AI Arena超1万局用户盲测中,Qwen-Image-2512表现优于其他开源模型,与闭源模型对比亦具竞争力。该模型已全面开源。
原文链接
12月22日,阿里宣布开源全新图像生成模型Qwen-Image-Layered,首次实现类似Photoshop的图层理解与编辑功能。该模型可将图片分解为多个RGBA图层,确保编辑操作仅作用于目标图层,从而实现‘零漂移’精准编辑,解决AI生成图像一致性难题。通过该模型,用户可完成重新着色、替换对象、修改文字、删除物体、缩放及移动物体等操作,且支持3层或8层分解选择。这一创新加速了大模型在专业设计领域的应用落地。相关技术报告和代码已发布在GitHub、ModelScope及Hugging Face平台,Demo也同步上线供体验。
原文链接
2025年12月17日,OpenAI发布旗舰图像生成模型GPT-Image-1.5,主打精准编辑、细节保留和速度提升4倍。新模型在指令遵循、文本渲染及图像风格真实感方面显著优化,适用于创意设计与生产力工具场景。即日起,GPT-Image-1.5面向全球ChatGPT用户与API开放,定价较上一代下降20%。评测显示,其在文本转图像和图像编辑领域超越Nano Banana Pro,但在精细化编辑上仍逊于谷歌。尽管指令遵守率达90%,但部分用户质疑其世界理解能力不足,认为其在信息准确性上不如Nano Banana。OpenAI表示将持续改进,进一步推动图像功能实用化。
原文链接
12月16日,OpenAI发布全新旗舰ChatGPT图像生成模型GPT Image 1.5,并在ChatGPT中新增专用“Images”标签页。新模型实现高保真图像生成和精准提示词遵循能力,可从零创作或基于上传照片编辑,保留光线、构图等关键特征,大幅提升服装试穿、风格滤镜及概念性转换效果。同时,文本渲染问题显著改善,支持专业级图像编辑功能。该功能已面向全球ChatGPT用户和API用户开放。OpenAI首席执行官山姆·奥尔特曼还通过个人账号发布了一张用新模型生成的消防员形象图。项目由顶尖专家团队领导,包括Sora负责人Bill Peebles和DALL-E缔造者之一Aditya Ramesh,强调多模态战略布局。此外,OpenAI组建大规模安全团队应对伦理与版权风险,确保技术合规性与社会责任。
原文链接
11月26日,Black Forest Labs发布新一代图像生成模型FLUX.2,专为实际创意工作流程设计。该模型可同时参考最多10张图像,支持高精度细节和照片级真实感,文本渲染更成熟,能准确遵循用户提示,对现实世界的理解显著提升,并支持4MP图像编辑。FLUX.2系列包含多种版本,部分以开放权重形式提供,为创作者提供更多灵活性。这一发布标志着AI图像生成技术在实用性和性能上的进一步突破。
原文链接
北京时间11月21日,谷歌发布Nano Banana Pro图像生成模型,基于Gemini 3 Pro打造。新模型在细节表现、分辨率、文本渲染及多语言支持上显著提升,并新增编辑功能与互联网搜索能力,可生成清晰文字、调整图像角度和焦点,最高支持4K分辨率。Nano Banana Pro适合制作PPT、信息图表等,最多处理14张图像或5个角色,保持一致性。该工具已在Gemini应用上线,免费用户可试用但有配额限制,订阅用户享有更高权限,未来将率先向Ultra用户开放Flow工具中的功能。
原文链接
2025年11月,谷歌推出Nano Banana Pro,集成Gemini 3与Veo 3能力,大幅提升AI图像生成技术。新模型支持多模态理解、14张图片混合输入及多语言文本渲染,可直接翻译图片中的文字并保持设计风格。其深度整合Google Search知识库,能生成基于实时信息的精准图表和信息图,如食谱、生态图解等。此外,Nano Banana Pro支持2K、4K分辨率及多种宽高比,适合专业制作需求,并可通过调整光线、色彩等优化图像效果。工作流整合Veo 3视频生成模型,实现从图像到视频的一键生成。谷歌通过Gemini应用、API及第三方工具(如Photoshop、Figma)全面铺开服务,同时推出AI图像验证功能,依托SynthID数字水印技术识别AI生成内容,并嵌入C2PA元数据追踪来源。
原文链接
11月20日,谷歌发布全新图像生成与编辑模型NANO BANANA PRO(Gemini 3 Pro图像)。该模型以更清晰的图像生成效果和多语言支持为亮点,能够提供更精确、易读的文本处理能力。这一尖端技术展现了谷歌在人工智能领域的持续创新,为用户带来更优质的视觉与语言体验。
原文链接
加载更多
暂无内容