综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月8日,美团LongCat团队发布并开源图像生成模型LongCat-Image。该模型以6B参数规模,在文生图和图像编辑能力上逼近大尺寸模型效果,并在多个基准测试中达到开源SOTA水平。其亮点包括高度可控的图像编辑能力和精准覆盖中文文字生成,特别是在复杂汉字渲染与生僻字支持方面表现突出。通过渐进式学习、多任务联合训练及创新数据策略,模型在指令遵循、视觉一致性及纹理真实感等方面显著提升。客观评测显示,LongCat-Image在ImgEdit-Bench、GEdit-Bench等测试中领先开源模型,接近闭源头部模型。此外,美团全面开源了多阶段模型,鼓励开发者参与共建,推动视觉生成技术发展。项目已上线Hugging Face和GitHub。
原文链接
5月21日,谷歌发布了文生图AI模型Imagen的最新版本——Imagen 4。据称,该版本的运行速度比上一代提升了10倍,同时生成的图像更加精致,细节更丰富,减少了‘AI味’。Imagen 4在文字生成和排版设计方面表现出色,能够创建高质量的海报等内容。谷歌官方展示了多个示例,进一步证明了其强大的文本理解和视觉表现能力。这一更新标志着AI技术在创意领域的又一次飞跃。
原文链接
腾讯旗下混元图像2.0(Hunyuan Image 2.0)发布,实现毫秒级响应的“边说边画”实时文生图功能。用户可通过文字描述或语音输入生成图像,支持参考图特征提取及画面优化。此外,新增实时绘画板模式,结合手绘草图与文本描述生成图像。技术亮点包括更大模型参数、自研高压缩比图像编解码器、适配多模态大语言模型作为文本编码器,以及强化学习后训练提升生成真实感。该模型在语义匹配能力测试中表现优异,官网已开放测试资格。腾讯混元团队还预告即将推出原生多模态图像生成大模型。
原文链接
标题:文生图进入R1时代:港中文发布T2I-R1,让AI绘画“先推理再下笔”
近日,港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1。该模型借鉴大语言模型的“先推理、再作答”思路,将强化学习应用于图片生成。
传统自回归生成模型缺乏显式语义推理能力,而T2I-R1提出双层级Co...
原文链接
5月7日,腾讯元宝宣布文生图功能升级,混元和DeepSeek模型均已支持生图功能。用户只需输入一句话指令,系统即可生成高质量图像。该功能结合了腾讯混元最新文生图模型,已在元宝全端上线。据官方介绍,系统会根据指令扩展为更完整的提示词,并生成复杂且富有想象力的图像,图文一致性与画质表现更佳。例如,“画一位抬头望向天空的少年,天空中有鲸鱼游向天际线,童年漫画风格”等均可实现。此外,还展示了生成宣传图、产品设计图等多种应用场景。
原文链接
4月19日,字节跳动发布最新文本生成图像模型Seedream 3.0。该模型在多项基准测试中表现优异,生成1K图像仅需约3秒,跑分超过GPT-4o,在Artificial Analysis Arena测试中得分1158。Seedream 3.0支持2K分辨率,采用新训练技术,提升图像质量和细节表现,尤其在写实肖像领域,皮肤纹理等细节更真实。模型在处理文本密集型任务时,中英文渲染成功率高达94%。此外,Seedream 3.0在美学和风格描述上表现突出,适用于海报、贴纸等设计任务。字节跳动同步推出配套工具SeedEdit,编辑效果优于GPT-4o和Gemini 2.0 Flash。未来,Seedream 3.0将集成至聊天机器人平台‘豆包’以拓展应用。
原文链接
《科创板日报》16日报道,字节跳动Seed团队推出的图像生成模型Seedream 3.0在文生图领域的权威第三方榜单Artificial Analysis竞技场中表现亮眼,其综合性能已达到与顶级模型GPT-4o持平的水平,并稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等主流模型,成功跻身全球文生图技术的第一梯队。这一成果标志着字节跳动在人工智能文生图领域取得重要突破,为相关技术和应用场景的发展注入新动力。
原文链接
标题:一个万能文生图提示框架,人人都能成为专业AI设计师
最近各家文生图AI都在持续迭代,但无论新手还是专业创作者,在使用文生图功能时仍常感到无从下手。最近,一泽研究出一套万能文生图提示框架,旨在为创意与AI生成能力搭建桥梁。这套框架适用于游戏、产品、影视、家装、UI、艺术、摄影等全设计领域。 ...
原文链接
《科创板日报》3月28日消息,OpenAI创始人Sam Altman称,ChatGPT文生图功能需求激增,导致GPU负荷过高,甚至出现‘冒烟’现象。为此,OpenAI决定暂时限制该功能的使用速率,优先保障文本生成等核心功能稳定。该功能于3月26日推出,允许用户通过自然语言指令生成、编辑图像,支持多轮迭代优化,标志着ChatGPT从单一语言模型迈向全模态智能体。功能上线后迅速走红,但因超出预期的高需求,原定向免费用户开放的时间被迫推迟。文生图功能基于GPT-4o模型,采用原生嵌入式自回归模型,需依赖GPU大规模并行计算,每张图片生成耗时约一分钟。此问题反映了AI多模态技术发展中算力资源与技术迭代需求之间的矛盾。
原文链接
3月26日,OpenAI宣布ChatGPT的图像生成功能迎来重大升级。基于GPT-4o模型,新功能可以直接从文本提示生成图像,不再依赖独立的DALL-E模型。此次升级显著提升了生成图像中文本的准确性,解决了此前版本“无法准确生成文字”的问题。演示中,ChatGPT不仅生成了一整页无错别字的讲话文本,还成功完成了科学常识绘图和漫画上色等任务。此外,其图像编辑功能也得到增强,支持角色风格保持一致及更换主要角色。该功能已向所有用户开放,并将在未来几周内支持API调用。尽管如此,新模型仍存在局限性,如可能受幻觉影响且对密集文字和非拉丁语文字处理效果欠佳。
原文链接
加载更多
暂无内容