综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月9日,腾讯发布并开源混元图像模型2.1(HunyuanImage 2.1),支持原生2K高清生图。新模型综合能力领先,支持中英文输入和复杂语义生成,美学表现与场景适配性显著提升,适合设计师高效创作。模型权重与代码已在Hugging Face、GitHub开源,供个人与企业开发者使用。混元图像2.1在复杂语义理解、文字控制及多风格生成方面表现突出,并通过结构化数据优化训练,大幅提升性能与效率。此外,同步开源的文本改写模型PromptEnhancer增强视觉表达能力。腾讯混元持续深耕图像生成领域,此前已推出DiT架构和实时生图模型。目前,混元3D系列模型社区下载量超230万,成为全球热门开源工具。
原文链接
正文:9月9日,腾讯宣布混元图像模型2.1正式开源,支持原生2K图像生成及中英文输入。新版本引入PromptEnhancer文本改写模型,可自动补全和优化输入描述,实现精准语义表达,同时支持中英文双向转换。模型具备1k tokens的超长prompt处理能力,擅长复杂场景生成与多主体描述,显著减少文字错误与理解偏差。新增双通道文本编码器、两阶段模型架构等技术亮点,大幅提升生成效率与图像质感。此外,通过高压缩率VAE和meanflow推理加速,2K图像生成耗时与同类模型1K图相当,推理步数从100步降至8步。
原文链接
2025年8月,谷歌发布全新图像模型nano banana,引爆AI社区。该模型可融合多张图片生成全新画面,理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini技术,nano banana实现“有记忆”的多轮创作,具备极高一致性和创造力。用户可上传最多13张图片进行拼接,或标注现实场景中的地标建筑。模型还能从等高线生成地貌、渲染工程视图、定制试衣效果,并修复老照片。其背后技术包括多模态上下文处理与交错生成,灵感源于网友反馈和团队对文字渲染的执着。谷歌DeepMind团队透露,未来目标是让模型超越指令,提供更优创意解。目前,nano banana已在LMArena上线并获高度评价。
原文链接
Midjourney宣布入局视频生成领域,其图像模型V7持续更新,视频生成效果逼真,动作流畅且细节丰富,包括跑步、挖蛋糕、多人物动作切换等场景均表现出色。尽管如此,视频缺乏音频功能引发网友热议,质疑其入局时机。Midjourney强调区别于其他模型的独特“动画化图片”功能,并计划通过用户评分和建议完善视频模型。此外,Midjourney V7图像生成模型也不断迭代,新增“草稿模式”,可通过语音输入生成多张图像,大幅提升生成效率。团队承诺开放定价权,希望满足不同用户需求。目前,Midjourney视频模型仍在完善中,预计未来将与图像模型共同成为视觉技术领域的领军者。
原文链接
12月27日,快手宣布推出可图1.5图像模型,新功能包括“AI模特”,通过文本描述生成AI模特形象,结合AI换装和可灵1.6图生视频功能,可生成服装展示视频。此外,可灵1.5模型在高品质模式下支持“尾帧生成”功能,上传图片后可基于尾帧生成5秒或10秒的视频。可灵对口型功能新增10款高品质音色,并支持7种情感选择,使人物配音更加生动自然。
原文链接
加载更多
暂无内容