
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,扩散模型领域核心DiT遭网友质疑,称其数学、形式均错误,甚至怀疑其无Transformer。作者谢赛宁迅速回应,批评标题党行为并强调科学精神,指出评价需基于假设与实验。DiT融合Transformer与扩散模型,性能超越U-Net经典模型,广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳,包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关,称其为正则化提升的结果,并推荐升级版Lightning DiT。他还总结团队改进方向,如内部表征学习方法REPA及相关技术优化,同时指出sd-vae是当前主要瓶颈。
原文链接
华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和3...
原文链接
标题:图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
一个简单的迷宫导航任务,却让许多模型“原形毕露”。Diffuser和Diffusion Forcing在测试中表现糟糕,通关率极低。而一种全新方法——蒙特卡洛树扩散(Monte Carlo Tre...
原文链接
从不确定到安全:复杂物理系统的安全控制新方法
近年来,深度学习在复杂物理系统控制中的应用日益广泛,但安全性问题却常常被忽视。为解决这一难题,西湖大学吴泰霖课题组提出了SafeDiffCon(Safe Diffusion Models for PDE Control),一种基于扩散模型的安全控制框架。...
原文链接
2025年7月,Inception Labs推出基于扩散技术的全新大语言模型Mercury,突破自回归模型逐词生成限制,采用“从噪声到结构化输出”方式,一次性预测所有方向的token,速度比传统工具快10倍。在NVIDIA H100 GPU上,Mercury实现最高1109 tokens/秒吞吐量,并通过并行化生成、动态去噪调度等优化硬件利用效率。其双向注意力机制和实时纠错模块显著提升代码生成的灵活性与准确性。团队由斯坦福、UCLA等顶尖高校教授创立,拥有谷歌、微软等资深专家支持。然而,超快生成速度也暴露当前CI测试瓶颈,引发行业对开发流程优化的讨论。Mercury在线体验平台已开放供用户试用。
原文链接
物理学家揭秘AI创造力来源:源于“技术缺陷”
AI的“创造力”可能源自一种技术缺陷?两位物理学家通过研究生物系统自我组装过程,提出了一个大胆假设:扩散模型的去噪过程类似于细胞分化重组,而其创造能力则与模型架构密切相关。他们的研究已被ICML 2025接收。
AI创造力的本质
扩散模型是DALL·E、...
原文链接
标题:视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展,但它们主要集中在物体级别的内容生成,难以处理复杂三维场景。
清华大学与腾讯合作提出...
原文链接
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升
扩散模型近年来备受关注,何恺明团队最新研究聚焦于如何将扩散模型与表征学习结合。他们提出了一种名为“Dispersive Loss”的正则化方法,旨在使扩散模型生成更自然真实的图片。
Dispersive Loss是一种即...
原文链接
6月2日,英伟达联合MIT和香港大学推出Fast-dLLM框架,大幅提升扩散模型推理速度。扩散模型因词元依赖关系易破坏及计算成本高等问题,在实际应用中逊于自回归模型。Fast-dLLM通过块状近似KV缓存和置信度感知并行解码策略解决上述问题。KV缓存将序列分块预计算存储,DualCache版本进一步优化;置信度解码选择性解码高置信度词元。Fast-dLLM在GSM8K数据集上实现27.6倍加速,准确率达76.0%,并在MATH、HumanEval和MBPP测试中分别实现6.5倍至7.8倍加速,准确率仅下降1-2个百分点。这项研究使扩散模型具备与自回归模型竞争的能力,为未来广泛应用奠定基础。
原文链接
谷歌DeepMind推出文本生成新模型Gemini Diffusion,采用扩散技术,12秒可生成1万tokens,速度达2000tokens/秒,远超传统自回归模型。该模型通过逐步优化噪声生成输出,不仅能快速迭代,还能在生成过程中进行错误修正,适用于代码编辑及数学推理等任务。例如,在非因果推理测试中,Gemini Diffusion能同时生成完整答案及推导过程,而GPT-4o等自回归模型难以完成此类任务。目前,Gemini Diffusion仍处于实验阶段,用户可通过官方链接申请体验。这项技术可能预示未来混合模型的发展趋势,值得关注。
原文链接
加载更多

暂无内容