综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,阿里通义发布全新图像模型Z-Image,上线HuggingFace首日下载量突破50万次,并迅速登顶两个榜单第一。Z-Image是一款6B参数的高效文生图模型,包含已开源的Z-Image-Turbo、未开源的Z-Image-Edit和Z-Image-Base三个版本,在写实风格生成、文本渲染及语义理解方面表现优异,质量接近甚至超越同期发布的FLUX.2。其采用单流DiT架构与Decoupled-DMD蒸馏技术,显著提升生成速度,仅需8步即可完成高清图像生成。测试显示,该模型在真实感、美学构图及复杂文字处理上表现出色,但小字渲染仍有改进空间。目前,Z-Image已在魔塔平台上线,开源地址同步公布,引发网友广泛热议与创意应用。
原文链接
2025年10月5日,腾讯混元图像3.0登顶全球AI文生图榜单首位,超越谷歌Nano Banana、字节Seedream等强劲对手,在国际权威竞技场LMArena的26个大模型中稳居第一。该模型采用原生多模态架构,参数规模达80B,是目前最大的开源生图模型,支持文字、图片、视频与音频多模态处理。其语义理解能力大幅提升,可生成高质量图像,如中秋节海报、火焰猫咪等创意作品,并在多项技术指标上领先行业。此外,混元3.0开源且提供多种资源链接,引发全民体验热潮,热度持续飙升。
原文链接
正文:9月10日,腾讯混元团队发布新研究SRPO(语义相对偏好优化),解决开源文生图模型Flux生成人像皮肤“过油”问题,显著提升真实感。该技术通过在线调整奖励偏好、优化生成轨迹等方法,定向增强特定维度表现,并有效避免奖励破解风险。SRPO创新性采用正负向词引导及Direct-Align策略,显著降低过拟合与偏色等问题,训练仅需10分钟,效果超越主流方法DanceGRPO,效率提升75倍。项目上线后迅速登上Hugging Face热度榜榜首,社区版本下载量达25K,GitHub Star超700。
原文链接
2023年6月26日,谷歌推出最新AI文生图模型Imagen 4及高端版本Imagen 4 Ultra。Imagen 4定位为通用模型,每张图片收费0.04美元(约0.29元人民币),而Imagen 4 Ultra价格提高50%,每张0.06美元(约0.43元人民币)。谷歌称其生成效果优于Dall-E和Midjourney,但实际展示的图像质量虽符合文本提示词,但整体仍显机械化。目前,这两个版本已上线Gemini API付费预览版,并在Google AI Studio提供有限免费测试。
原文链接
北京时间3月26日消息,OpenAI于当地时间3月25日宣布对GPT-4和Sora进行重大升级,推出全新文生图模型。这一模型不仅支持文本生成图片的功能,还具备自定义操作、连续发问、风格转换以及图像PPT等实用功能。这些新增特性进一步拓展了人工智能在创意领域的应用可能性。
原文链接
《科创板日报》4日获悉,大模型独角兽智谱发布了2025开源年的首个模型——CogView4,这是首个支持生成汉字的开源文生图模型。CogView4在DPG-Bench基准测试中综合评分位列第一,达到了SOTA水平。此外,它是首款遵循Apache 2.0协议的图像生成模型。(记者 李明明)
原文链接
3月4日,大模型独角兽智谱发布了首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分第一,并且是首个遵循Apache 2.0协议的图像生成模型。GitHub页面显示,CogView4具有60亿参数,支持原生中文输入和中文文本到图像生成。开源地址:
原文链接
中国联通旗下联通数据智能有限公司于1月8日宣布开源首个完全在国产昇腾AI平台上训练和推理的中文原生文生图模型——元景。该模型通过融合复合语言编码模块,提升了对中文长文本和特色词汇的理解能力,并解决了传统方法带来的中文信息损失问题。元景模型已在多个项目中成功应用,并在GitHub、Hugging Face等平台全面开源。
原文链接
xAI在其Grok平台上推出新文生图模型Aurora,仅闪现数小时,但生成的人物图像逼真且高清,包括马斯克、科技巨头CEO等。Aurora未设限制,能生成公众人物、版权图像等。尽管xAI官方未解释其短暂上线原因,马斯克回应称这只是测试版,会很快改进。Aurora在生成效果上优于之前的Flux,尤其擅长人物写实。不过,也有失败案例。xAI员工透露,团队仍在努力开发新产品,Grok 3即将来临。
原文链接
谷歌宣布其高级文生图模型 Imagen 3 已正式上线,结束了此前的公开测试。该模型于今年8月在美国率先向用户开放,现在订阅了 Google Cloud 的用户均可体验。据谷歌介绍,Imagen 3 能够生成细腻、生动且接近照片质量的图像,并支持长文本理解和编辑功能,用户可以通过提示词替换图片中的元素,还能添加品牌Logo或文字内容。此外,为了防止版权纠纷,Imagen 3 引入了由 DeepMind 开发的 SynthID 数字水印和安全过滤器。此模型旨在应对 DALL・E 3 的挑战,标志着谷歌在这一领域的最新进展。
原文链接
加载更多
暂无内容