文生图 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

美团发布并开源 LongCat-Image 图像生成模型，编辑能力登顶开源 SOTA

12月8日，美团LongCat团队发布并开源图像生成模型LongCat-Image。该模型以6B参数规模，在文生图和图像编辑能力上逼近大尺寸模型效果，并在多个基准测试中达到开源SOTA水平。其亮点包括高度可控的图像编辑能力和精准覆盖中文文字生成，特别是在复杂汉字渲染与生僻字支持方面表现突出。通过渐进式学习、多任务联合训练及创新数据策略，模型在指令遵循、视觉一致性及纹理真实感等方面显著提升。客观评测显示，LongCat-Image在ImgEdit-Bench、GEdit-Bench等测试中领先开源模型，接近闭源头部模型。此外，美团全面开源了多阶段模型，鼓励开发者参与共建，推动视觉生成技术发展。项目已上线Hugging Face和GitHub。

原文链接

AI创想团

12-08 10:19:43

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌最强文生图 AI 模型 Imagen 4 亮相：比上一代快 10 倍，文字效果更好

5月21日，谷歌发布了文生图AI模型Imagen的最新版本——Imagen 4。据称，该版本的运行速度比上一代提升了10倍，同时生成的图像更加精致，细节更丰富，减少了‘AI味’。Imagen 4在文字生成和排版设计方面表现出色，能够创建高质量的海报等内容。谷歌官方展示了多个示例，进一步证明了其强大的文本理解和视觉表现能力。这一更新标志着AI技术在创意领域的又一次飞跃。

原文链接

量子思考者

05-21 03:50:10

分享至

打开微信扫一扫

内容投诉

生成图片

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

腾讯旗下混元图像2.0（Hunyuan Image 2.0）发布，实现毫秒级响应的“边说边画”实时文生图功能。用户可通过文字描述或语音输入生成图像，支持参考图特征提取及画面优化。此外，新增实时绘画板模式，结合手绘草图与文本描述生成图像。技术亮点包括更大模型参数、自研高压缩比图像编解码器、适配多模态大语言模型作为文本编码器，以及强化学习后训练提升生成真实感。该模型在语义匹配能力测试中表现优异，官网已开放测试资格。腾讯混元团队还预告即将推出原生多模态图像生成大模型。

原文链接

量子黑客

05-16 17:18:33

分享至

打开微信扫一扫

内容投诉

生成图片

文生图进入R1时代：港中文发布T2I-R1，让AI绘画“先推理再下笔”

标题：文生图进入R1时代：港中文发布T2I-R1，让AI绘画“先推理再下笔” 近日，港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1。该模型借鉴大语言模型的“先推理、再作答”思路，将强化学习应用于图片生成。传统自回归生成模型缺乏显式语义推理能力，而T2I-R1提出双层级Co...

原文链接

E-Poet

05-14 17:20:57

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯元宝宣布文生图功能升级：混元和 DeepSeek 都已支持生图

5月7日，腾讯元宝宣布文生图功能升级，混元和DeepSeek模型均已支持生图功能。用户只需输入一句话指令，系统即可生成高质量图像。该功能结合了腾讯混元最新文生图模型，已在元宝全端上线。据官方介绍，系统会根据指令扩展为更完整的提示词，并生成复杂且富有想象力的图像，图文一致性与画质表现更佳。例如，“画一位抬头望向天空的少年，天空中有鲸鱼游向天际线，童年漫画风格”等均可实现。此外，还展示了生成宣传图、产品设计图等多种应用场景。

原文链接

阿达旻

05-07 17:15:44

分享至

打开微信扫一扫

内容投诉

生成图片

字节 Seedream 3.0 登场：文生图跑分超 GPT-4o，生成 1K 图像仅需约 3 秒

4月19日，字节跳动发布最新文本生成图像模型Seedream 3.0。该模型在多项基准测试中表现优异，生成1K图像仅需约3秒，跑分超过GPT-4o，在Artificial Analysis Arena测试中得分1158。Seedream 3.0支持2K分辨率，采用新训练技术，提升图像质量和细节表现，尤其在写实肖像领域，皮肤纹理等细节更真实。模型在处理文本密集型任务时，中英文渲染成功率高达94%。此外，Seedream 3.0在美学和风格描述上表现突出，适用于海报、贴纸等设计任务。字节跳动同步推出配套工具SeedEdit，编辑效果优于GPT-4o和Gemini 2.0 Flash。未来，Seedream 3.0将集成至聊天机器人平台‘豆包’以拓展应用。

原文链接

小阳哥

04-19 15:47:04

分享至

打开微信扫一扫

内容投诉

生成图片

字节Seedream 3.0追平GPT-4o 加入文生图第一梯队

《科创板日报》16日报道，字节跳动Seed团队推出的图像生成模型Seedream 3.0在文生图领域的权威第三方榜单Artificial Analysis竞技场中表现亮眼，其综合性能已达到与顶级模型GPT-4o持平的水平，并稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等主流模型，成功跻身全球文生图技术的第一梯队。这一成果标志着字节跳动在人工智能文生图领域取得重要突破，为相关技术和应用场景的发展注入新动力。

原文链接

智慧轨迹

04-16 21:16:27

分享至

打开微信扫一扫

内容投诉

生成图片

一个万能文生图提示框架，人人都能成为专业AI设计师

标题：一个万能文生图提示框架，人人都能成为专业AI设计师最近各家文生图AI都在持续迭代，但无论新手还是专业创作者，在使用文生图功能时仍常感到无从下手。最近，一泽研究出一套万能文生图提示框架，旨在为创意与AI生成能力搭建桥梁。这套框架适用于游戏、产品、影视、家装、UI、艺术、摄影等全设计领域。 ...

原文链接

小阳哥

04-07 16:05:42

分享至

打开微信扫一扫

内容投诉

生成图片

多模态又考验算力了！ChatGPT文生图功能太火爆奥尔特曼：GPU“冒烟了”

《科创板日报》3月28日消息，OpenAI创始人Sam Altman称，ChatGPT文生图功能需求激增，导致GPU负荷过高，甚至出现‘冒烟’现象。为此，OpenAI决定暂时限制该功能的使用速率，优先保障文本生成等核心功能稳定。该功能于3月26日推出，允许用户通过自然语言指令生成、编辑图像，支持多轮迭代优化，标志着ChatGPT从单一语言模型迈向全模态智能体。功能上线后迅速走红，但因超出预期的高需求，原定向免费用户开放的时间被迫推迟。文生图功能基于GPT-4o模型，采用原生嵌入式自回归模型，需依赖GPU大规模并行计算，每张图片生成耗时约一分钟。此问题反映了AI多模态技术发展中算力资源与技术迭代需求之间的矛盾。

原文链接

阿达旻

03-28 09:38:22

分享至

打开微信扫一扫

内容投诉

生成图片

ChatGPT文生图功能迎重大升级：准确生成文字商用边界大幅拓展

3月26日，OpenAI宣布ChatGPT的图像生成功能迎来重大升级。基于GPT-4o模型，新功能可以直接从文本提示生成图像，不再依赖独立的DALL-E模型。此次升级显著提升了生成图像中文本的准确性，解决了此前版本“无法准确生成文字”的问题。演示中，ChatGPT不仅生成了一整页无错别字的讲话文本，还成功完成了科学常识绘图和漫画上色等任务。此外，其图像编辑功能也得到增强，支持角色风格保持一致及更换主要角色。该功能已向所有用户开放，并将在未来几周内支持API调用。尽管如此，新模型仍存在局限性，如可能受幻觉影响且对密集文字和非拉丁语文字处理效果欠佳。

原文链接