
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年10月,谢赛宁团队发布新研究,提出用RAE(表征自编码器)替代VAE(变分自动编码器)。RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与轻量级解码器,提供高质量重建和语义丰富的潜空间,支持可扩展的变换器架构。相比VAE,RAE解决了过时骨干网络、信息压缩不足及表征能力弱等问题。实验显示,采用RAE的DiT模型在ImageNet上表现强劲,256×256分辨率下FID仅1.51,且收敛速度比基于VAE的方法快16倍。此外,宽DiT设计、噪声调度和噪声解码器等简单调整显著提升了扩散模型性能。研究论文已公开。
原文链接
2025年9月,蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE,总参数量7B,激活参数1.4B,验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发,克服了自回归模型的单向建模缺陷,具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版,推动扩散语言模型(dLLM)领域的社区协作,并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径,标志着国内团队在dLLM规模化扩展上迈出重要一步。
原文链接
2025年9月,Meta成功从OpenAI挖走华人研究员宋飏(Yang Song),他加入Meta MSL团队并向清华校友赵晟佳汇报。宋飏是扩散模型崛起的关键人物之一,曾在OpenAI担任战略探索团队负责人,并在生成模型领域取得突破性成果,如一致性模型的开发与优化。他的研究显著提升了图像生成速度和质量,成为近年AI领域的明星成果。宋飏拥有16岁裸分考入清华的天才背景,后于斯坦福大学攻读博士并深耕生成模型技术。他曾参与NeurIPS 2019等重要研究,为扩散模型的发展奠定基础。此次跳槽引发业内震惊,多位OpenAI员工表示意外。Meta持续吸纳顶尖人才,强化其AI研发实力。
原文链接
2025年8月,扩散模型领域核心DiT遭网友质疑,称其数学、形式均错误,甚至怀疑其无Transformer。作者谢赛宁迅速回应,批评标题党行为并强调科学精神,指出评价需基于假设与实验。DiT融合Transformer与扩散模型,性能超越U-Net经典模型,广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳,包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关,称其为正则化提升的结果,并推荐升级版Lightning DiT。他还总结团队改进方向,如内部表征学习方法REPA及相关技术优化,同时指出sd-vae是当前主要瓶颈。
原文链接
华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和3...
原文链接
标题:图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
一个简单的迷宫导航任务,却让许多模型“原形毕露”。Diffuser和Diffusion Forcing在测试中表现糟糕,通关率极低。而一种全新方法——蒙特卡洛树扩散(Monte Carlo Tre...
原文链接
从不确定到安全:复杂物理系统的安全控制新方法
近年来,深度学习在复杂物理系统控制中的应用日益广泛,但安全性问题却常常被忽视。为解决这一难题,西湖大学吴泰霖课题组提出了SafeDiffCon(Safe Diffusion Models for PDE Control),一种基于扩散模型的安全控制框架。...
原文链接
2025年7月,Inception Labs推出基于扩散技术的全新大语言模型Mercury,突破自回归模型逐词生成限制,采用“从噪声到结构化输出”方式,一次性预测所有方向的token,速度比传统工具快10倍。在NVIDIA H100 GPU上,Mercury实现最高1109 tokens/秒吞吐量,并通过并行化生成、动态去噪调度等优化硬件利用效率。其双向注意力机制和实时纠错模块显著提升代码生成的灵活性与准确性。团队由斯坦福、UCLA等顶尖高校教授创立,拥有谷歌、微软等资深专家支持。然而,超快生成速度也暴露当前CI测试瓶颈,引发行业对开发流程优化的讨论。Mercury在线体验平台已开放供用户试用。
原文链接
物理学家揭秘AI创造力来源:源于“技术缺陷”
AI的“创造力”可能源自一种技术缺陷?两位物理学家通过研究生物系统自我组装过程,提出了一个大胆假设:扩散模型的去噪过程类似于细胞分化重组,而其创造能力则与模型架构密切相关。他们的研究已被ICML 2025接收。
AI创造力的本质
扩散模型是DALL·E、...
原文链接
标题:视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展,但它们主要集中在物体级别的内容生成,难以处理复杂三维场景。
清华大学与腾讯合作提出...
原文链接
加载更多

暂无内容