综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月8日,美团LongCat团队发布并开源图像生成模型LongCat-Image。该模型以6B参数规模,在文生图和图像编辑能力上逼近大尺寸模型效果,并在多个基准测试中达到开源SOTA水平。其亮点包括高度可控的图像编辑能力和精准覆盖中文文字生成,特别是在复杂汉字渲染与生僻字支持方面表现突出。通过渐进式学习、多任务联合训练及创新数据策略,模型在指令遵循、视觉一致性及纹理真实感等方面显著提升。客观评测显示,LongCat-Image在ImgEdit-Bench、GEdit-Bench等测试中领先开源模型,接近闭源头部模型。此外,美团全面开源了多阶段模型,鼓励开发者参与共建,推动视觉生成技术发展。项目已上线Hugging Face和GitHub。
原文链接
2025年12月,阿里通义发布全新图像模型Z-Image,上线HuggingFace首日下载量突破50万次,并迅速登顶两个榜单第一。Z-Image是一款6B参数的高效文生图模型,包含已开源的Z-Image-Turbo、未开源的Z-Image-Edit和Z-Image-Base三个版本,在写实风格生成、文本渲染及语义理解方面表现优异,质量接近甚至超越同期发布的FLUX.2。其采用单流DiT架构与Decoupled-DMD蒸馏技术,显著提升生成速度,仅需8步即可完成高清图像生成。测试显示,该模型在真实感、美学构图及复杂文字处理上表现出色,但小字渲染仍有改进空间。目前,Z-Image已在魔塔平台上线,开源地址同步公布,引发网友广泛热议与创意应用。
原文链接
10月5日,腾讯混元图像3.0在AI文生图权威榜单LMArena登顶第一,击败Nano、Banana等强劲对手,成为全球效果最佳的开源生图模型。其凭借三大优势脱颖而出:一是具备推理能力,将逻辑融入画面;二是精准渲染中英文长文本,细节表现优异;三是拥有高审美水平,生成图像真实且符合用户需求。此前,9月初发布的混元图像2.1已是最佳开源模型。目前,腾讯混元已构建起覆盖语言、图像、视频、3D等多模态开源矩阵,社区衍生模型超3000个,其中3D系列下载量超260万,曾获全球3D生成榜单第一。未来还将推出图生图、图像编辑等功能版本。
原文链接
2025年10月5日,腾讯混元图像3.0登顶全球AI文生图榜单首位,超越谷歌Nano Banana、字节Seedream等强劲对手,在国际权威竞技场LMArena的26个大模型中稳居第一。该模型采用原生多模态架构,参数规模达80B,是目前最大的开源生图模型,支持文字、图片、视频与音频多模态处理。其语义理解能力大幅提升,可生成高质量图像,如中秋节海报、火焰猫咪等创意作品,并在多项技术指标上领先行业。此外,混元3.0开源且提供多种资源链接,引发全民体验热潮,热度持续飙升。
原文链接
10月5日,腾讯混元图像3.0模型在国际大模型竞技场LMArena的文生图榜单中,凭借全球用户的“盲测”投票,超越26个顶尖模型荣登第一。LMArena由美国加州大学伯克利分校推出,采用基于人类真实偏好的匿名投票机制,是目前最权威的AI模型评估平台之一。混元图像3.0于9月28日发布,现已开放文生图能力,并计划后续推出图生图、图像编辑等功能。该模型不仅能生成复杂文本、漫画、表情包和科普插画,还能大幅提升视觉创作者效率,使无美术功底的用户也能轻松创作生动内容。
原文链接
正文:9月10日,腾讯混元团队发布新研究SRPO(语义相对偏好优化),解决开源文生图模型Flux生成人像皮肤“过油”问题,显著提升真实感。该技术通过在线调整奖励偏好、优化生成轨迹等方法,定向增强特定维度表现,并有效避免奖励破解风险。SRPO创新性采用正负向词引导及Direct-Align策略,显著降低过拟合与偏色等问题,训练仅需10分钟,效果超越主流方法DanceGRPO,效率提升75倍。项目上线后迅速登上Hugging Face热度榜榜首,社区版本下载量达25K,GitHub Star超700。
原文链接
2023年6月26日,谷歌推出最新AI文生图模型Imagen 4及高端版本Imagen 4 Ultra。Imagen 4定位为通用模型,每张图片收费0.04美元(约0.29元人民币),而Imagen 4 Ultra价格提高50%,每张0.06美元(约0.43元人民币)。谷歌称其生成效果优于Dall-E和Midjourney,但实际展示的图像质量虽符合文本提示词,但整体仍显机械化。目前,这两个版本已上线Gemini API付费预览版,并在Google AI Studio提供有限免费测试。
原文链接
5月21日,谷歌发布了文生图AI模型Imagen的最新版本——Imagen 4。据称,该版本的运行速度比上一代提升了10倍,同时生成的图像更加精致,细节更丰富,减少了‘AI味’。Imagen 4在文字生成和排版设计方面表现出色,能够创建高质量的海报等内容。谷歌官方展示了多个示例,进一步证明了其强大的文本理解和视觉表现能力。这一更新标志着AI技术在创意领域的又一次飞跃。
原文链接
腾讯旗下混元图像2.0(Hunyuan Image 2.0)发布,实现毫秒级响应的“边说边画”实时文生图功能。用户可通过文字描述或语音输入生成图像,支持参考图特征提取及画面优化。此外,新增实时绘画板模式,结合手绘草图与文本描述生成图像。技术亮点包括更大模型参数、自研高压缩比图像编解码器、适配多模态大语言模型作为文本编码器,以及强化学习后训练提升生成真实感。该模型在语义匹配能力测试中表现优异,官网已开放测试资格。腾讯混元团队还预告即将推出原生多模态图像生成大模型。
原文链接
标题:文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
近日,港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1。该模型借鉴大语言模型的“先推理、再作答”思路,将强化学习应用于图片生成。
传统自回归生成模型缺乏显式语义推理能力,而T2I-R1提出双层级Co...
原文链接
加载更多
暂无内容