1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026
标题:港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026 扩散模型是当前图像生成领域的核心技术,能够生成高度逼真的画面。然而,真实场景中,人们不仅希望模型生成逼真图像,还要求其严格按照提示完成任务。例如,生成包含指定文字的图像时,模型可能通过放大文字或简化场景来“取巧”,这种...
量子思考者
03-20 16:52:29
分享至
打开微信扫一扫
内容投诉
生成图片
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了
2026年2月,硅谷初创公司Inception Labs发布扩散模型Mercury 2,成为全球生成速度最快的深度学习模型。其在英伟达GPU上实现每秒1009个tokens的生成速度,比GPT-5 Mini和Claude-4.5 Haiku快5倍。Mercury 2采用并行优化机制,摒弃传统自回归逐字生成方式,通过整体编辑提升效率,延迟低至1.7秒,且性能优异,在GPQA、LCB、AIME等基准测试中表现突出。此外,其价格具有竞争力,输入和输出分别为每百万token 0.25美元和0.75美元。背后团队自2019年起研究扩散模型,核心成员包括斯坦福教授Stefano Ermon等。Mercury 2获英伟达、微软等机构投资支持,目前暂无开源计划,但API兼容OpenAI标准,可在线体验。
Oasis
02-26 10:41:31
分享至
打开微信扫一扫
内容投诉
生成图片
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
2026年2月,蚂蚁集团发布LLaDA2.1扩散语言模型,实现892 tokens/秒的峰值速度,显著超越主流自回归模型。该模型采用双模式解码策略:极速模式适合高吞吐场景,质量模式保障高精度任务。通过可纠错编辑机制,模型先并行生成草稿再全局修正,解决了扩散模型的逻辑一致性问题。此外,团队首次在100B参数规模上成功应用强化学习,大幅提升指令遵循等任务表现。开源版本包括100B和16B两种规模,后者峰值速度超1500 tokens/秒,为轻量化部署提供支持。技术报告及代码已公开。
量子思考者
02-11 10:10:31
分享至
打开微信扫一扫
内容投诉
生成图片
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
正文:2026年1月,何恺明团队联合MIT本科生提出全新图像生成方法Pixel Mean Flow(pMF),颠覆传统扩散模型。该方法抛弃多步采样和潜空间编码,直接在像素空间一步生成高质量图像,在ImageNet 256×256分辨率上达到2.22 FID,512×512分辨率上为2.48 FID,创下单步无潜空间模型最佳成绩。pMF核心设计通过网络直接输出像素级去噪图像,并以速度场计算损失,基于流形假设简化复杂任务。实验表明,其计算效率远超StyleGAN-XL等方法,且避免了VAE解码器的额外开销。团队希望推动端到端生成建模研究。
LunarCoder
02-02 16:48:05
分享至
打开微信扫一扫
内容投诉
生成图片
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
正文:2025年12月,ViT核心作者、Meta超级智能团队成员Lucas Beyer盛赞中国开源模型Qwen-Image-Layered,称其图像生成能力远超Nano Banana和ChatGPT。该模型基于扩散技术,可将图片分解为多个含透明度信息的RGBA图层,实现精细化编辑,如局部修改、背景替换、主体更换等。相比传统方法,Qwen-Image-Layered避免了递归错误,擅长处理复杂遮挡、半透明及文字场景。模型支持可变层数拆解,满足多样化需求,并已在GitHub开源。网友评价其效果类似开源版Photoshop,令人惊叹。
灵感Phoenix
12-29 13:21:05
分享至
打开微信扫一扫
内容投诉
生成图片
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
在2026智能未来大会上,蚂蚁集团资深技术专家赵俊博分享了扩散语言模型(dLLM)的最新进展。他指出,与主流自回归模型不同,扩散模型可直接修改和控制token,无需重新生成整段内容,从而提升生成速度并降低计算成本。其团队开源了千亿参数规模的LLaDA 2.0模型,这是扩散语言模型领域的关键里程碑。赵俊博还提到,该领域仍处于早期阶段,但发展迅速,已吸引谷歌、字节等巨头布局。此外,扩散模型在代码生成和文学创作任务中表现出独特优势,推理引擎dInfer也已发布。团队将继续探索dLLM的Scaling Law,推动训推生态发展。
代码编织者Nexus
12-12 12:47:17
分享至
打开微信扫一扫
内容投诉
生成图片
何恺明团队新作:扩散模型可能被用错了
正文:2025年11月,何恺明团队发布新论文,提出扩散模型可能被用错的观点。研究指出,当前主流扩散模型在训练时多预测噪声或速度场,而非直接生成干净图像,这与模型本质相悖。基于流形假设,团队认为神经网络更适合学习将噪声投影回低维流形的干净数据,而非拟合高维噪声。为此,他们提出极简架构JiT(Just image Transformers),完全从像素出发,直接预测图像块,无需VAE、Tokenizer等复杂组件。实验表明,JiT在高维空间下表现稳健,在ImageNet 256×256和512×512生成任务中分别取得1.82和1.78的SOTA级FID分数。论文一作为黎天鸿,清华姚班本科毕业,现为何恺明组博士后。
数字墨迹
11-20 11:15:51
分享至
打开微信扫一扫
内容投诉
生成图片
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
2025年10月,清华大学与快手可灵团队联合发布了一种名为SVG的无VAE潜在扩散模型。该模型通过语义+细节双分支和分布对齐技术,在训练效率上提升62倍,生成速度提高35倍,解决了传统VAE因语义纠缠导致的生成效率低、多任务适配性差等问题。SVG基于DINOv3构建语义特征,并引入轻量级残差编码器补充高频细节,实验显示其在ImageNet数据集上的生成质量(FID值1.92)接近顶级模型水平,同时具备图像分类、语义分割等多任务通用能力。团队由清华博士后郑文钊领衔,相关论文已发布于arXiv,代码开源在GitHub。
WisdomTrail
10-28 15:54:58
分享至
打开微信扫一扫
内容投诉
生成图片
谢赛宁新作:VAE退役,RAE当立
正文:2025年10月,谢赛宁团队发布新研究,提出用RAE(表征自编码器)替代VAE(变分自动编码器)。RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与轻量级解码器,提供高质量重建和语义丰富的潜空间,支持可扩展的变换器架构。相比VAE,RAE解决了过时骨干网络、信息压缩不足及表征能力弱等问题。实验显示,采用RAE的DiT模型在ImageNet上表现强劲,256×256分辨率下FID仅1.51,且收敛速度比基于VAE的方法快16倍。此外,宽DiT设计、噪声调度和噪声解码器等简单调整显著提升了扩散模型性能。研究论文已公开。
小阳哥
10-14 17:20:36
分享至
打开微信扫一扫
内容投诉
生成图片
冲破 AGI 迷雾,蚂蚁看到了一个新路标
2025年9月,蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE,总参数量7B,激活参数1.4B,验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发,克服了自回归模型的单向建模缺陷,具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版,推动扩散语言模型(dLLM)领域的社区协作,并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径,标志着国内团队在dLLM规模化扩展上迈出重要一步。
虚拟织梦者
09-29 11:08:37
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序