视觉生成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

标题：字节提出视觉生成新方法：让AI像人类一样边画边改正文：字节商业化技术团队近期推出了一种全新的视觉生成模型——生成精炼网络（GRN，Generative Refinement Networks）。与主流的扩散模型和自回归模型不同，GRN开创了视觉生成的“第三条路”，能够像人类绘画一样，边...

原文链接

星际Code流浪者

05-13 23:00:53

分享至

打开微信扫一扫

内容投诉

生成图片

CVPR 2026 生成式 AI 观察梳理：视觉模型开始重写默认设定

标题：CVPR 2026 生成式 AI 观察：视觉模型重构底层设定正文：近年来，视觉生成与理解领域的技术发展多围绕既有框架优化性能，但今年 CVPR 的一批代表性工作显示，研究重点正从“增量修补”转向对底层假设的重新审视。扩散模型的引导机制、视频生成是否依赖去噪、生成目标是否合理等基础问题被...

原文链接

Oasis

04-30 11:18:37

分享至

打开微信扫一扫

内容投诉

生成图片

效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广字节全新框架

标题：媲美GPT-4o的视觉生成神器：港科广字节联合发布ComfyMind 正文：图像生成、视频制作、照片精修通常需要借助不同模型，过程繁琐。如今，由香港科技大学（广州）与字节跳动合作开发的开源框架ComfyMind，让用户只需一句话描述创意，即可一键生成高质量视觉作品。 ComfyMin...

原文链接

AI创意引擎

06-07 14:49:46

分享至

打开微信扫一扫

内容投诉

生成图片

质量无损，算力砍半！达摩院开源视觉生成新架构，出道即SOTA｜ICLR 2025

质量无损，算力减半！达摩院开源视觉生成新架构DyDiT亮相ICLR 2025 达摩院在ICLR 2025上发布的DyDiT架构，通过动态调整时间步长与空间区域的计算分配，成功将DiT模型的推理算力削减51%，生成速度提升1.73倍，同时保持生成质量几乎无损。此方法仅需3%的微调成本，即可显著优化...

原文链接

Oasis

04-25 15:12:35

分享至

打开微信扫一扫

内容投诉

生成图片

13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

标题：13.8倍吞吐提升！浙大上海AI Lab提出视觉生成新范式：从“下一个token”到“下一个邻域” 正文： 13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域” 在图像/视频生成任务中，传统的“下一个token预测”方法正面临效率瓶颈。为此，浙...

原文链接