综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,CVPR 2026在美国丹佛揭晓重磅奖项,华人学者表现抢眼,中国作者与审稿人数量断层第一。最佳论文由Google DeepMind等团队的D4RT斩获,实现高效动态4D场景重建;最佳学生论文归属清华与微软团队的3D生成模型TRELLIS.2。最亮眼的是,广东工业大学等纯国内高校团队凭借ChordEdit获最佳学生论文提名,本科生一作打破大厂名校垄断。此外,何恺明等人提出的ResNet与YOLO v1同获时间检验奖。本届大会投稿量超1.6万篇创历史新高,华人力量持续引领全球AI视觉前沿。
原文链接
2026年5月,何恺明团队发布首个语言模型ELF,参数仅105M,采用扩散语言模型(DLM)新路线。与传统自回归方法不同,ELF全程在连续embedding空间生成,最后一步才离散化为token,显著减少训练和采样成本。实验显示,ELF在OpenWebText任务中以32步采样、45B训练token将生成困惑度降至24,超越主流扩散模型,后者通常需1024步和500B+训练token。ELF还通过‘连续表示’与‘离散输出’分离设计,在质量、速度和成本上实现突破。团队成员包括MIT博士生胡珂雅、Linlu Qiu及清华姚班本科生陆伊炀等,研究结合视觉与语言交叉领域,成果已引发广泛关注。
原文链接
正文:2026年2月,何恺明团队提出全新生成模型范式——漂移模型(Drifting Models),一作是人大附中校友、IMO与IOI双料金牌得主邓明扬。漂移模型将生成分布的演化从推理阶段转移到训练阶段,实现单步生成(One-step Generation)。其核心创新为引入“漂移场”机制,在训练中直接对齐先验分布与真实数据分布,消除了GANs的对抗训练不稳定性,并摆脱了扩散模型对多步求解的依赖。在ImageNet 256×256基准测试中,该模型以1-NFE取得1.54 FID的成绩,超越许多传统多步生成模型。此外,模型在具身智能控制任务中也表现出色,单步推理即可匹敌需100步的传统方法。
原文链接
正文:2026年1月,何恺明团队联合MIT本科生提出全新图像生成方法Pixel Mean Flow(pMF),颠覆传统扩散模型。该方法抛弃多步采样和潜空间编码,直接在像素空间一步生成高质量图像,在ImageNet 256×256分辨率上达到2.22 FID,512×512分辨率上为2.48 FID,创下单步无潜空间模型最佳成绩。pMF核心设计通过网络直接输出像素级去噪图像,并以速度场计算损失,基于流形假设简化复杂任务。实验表明,其计算效率远超StyleGAN-XL等方法,且避免了VAE解码器的额外开销。团队希望推动端到端生成建模研究。
原文链接
正文:2025年12月,何恺明团队发布新论文,提出名为双向归一化流(BiFlow)的框架,突破归一化流生成模型效率瓶颈。该方法通过解耦前向与逆向过程,使逆向生成无需精确匹配前向过程,大幅提升速度和灵活性。实验显示,BiFlow在ImageNet 256×256数据集上取得2.39的FID分数,推理速度较基线提升两个数量级(TPU上快697倍)。此外,BiFlow支持图像修复和编辑任务。论文由三位本科生领衔,包括清华姚班陆伊炀、MIT Qiao Sun及刚入学MIT的王衔邦,均为何恺明指导。
原文链接
2025年12月,何恺明团队发布新成果Improved MeanFlow (iMF),解决原始MeanFlow在训练稳定性、指导灵活性和架构效率上的三大问题。通过重构预测函数为标准回归问题,引入无分类器指导(CFG)和上下文内条件作用,模型性能大幅提升。在ImageNet 256×256基准测试中,iMF-XL/2模型单步生成FID达1.72,较原始版本提升50%,媲美多步扩散模型。论文一作为CMU博士生耿正阳,共一为清华姚班大二学生Yiyang Lu,后者现于MIT跟随何恺明研究计算机视觉。其他合作者包括Adobe研究员Zongze Wu、Eli Shechtman及CMU机器学习系主任Zico Kolter。该研究部分完成于MIT,何恺明教授署名尾作。
原文链接
正文:2025年11月,何恺明团队发布新论文,提出扩散模型可能被用错的观点。研究指出,当前主流扩散模型在训练时多预测噪声或速度场,而非直接生成干净图像,这与模型本质相悖。基于流形假设,团队认为神经网络更适合学习将噪声投影回低维流形的干净数据,而非拟合高维噪声。为此,他们提出极简架构JiT(Just image Transformers),完全从像素出发,直接预测图像块,无需VAE、Tokenizer等复杂组件。实验表明,JiT在高维空间下表现稳健,在ImageNet 256×256和512×512生成任务中分别取得1.82和1.78的SOTA级FID分数。论文一作为黎天鸿,清华姚班本科毕业,现为何恺明组博士后。
原文链接
何恺明MIT两名新弟子曝光:首次有女生入组,另一位是FNO发明者,均为华人
AI大牛何恺明的团队近日新增两名成员——博士生胡珂雅和博士后李宗宜,均为华人学者。至此,何恺明任教MIT以来招募的6名学生中,5名为中国面孔。
胡珂雅:上交学霸直博MIT
胡珂雅本科毕业于上海交通大学ACM班,高中就读于福建...
原文链接
2025年10月,LSTM之父Jürgen Schmidhuber再次引发争议,称其学生Sepp Hochreiter早在1991年就提出循环残差连接解决梯度消失问题,认为残差学习的奠基人应归功于Hochreiter而非何恺明团队。Schmidhuber指出,1997年提出的LSTM和1999年的vanilla LSTM均基于此思想,而2015年的Highway网络和ResNet是这一理念的延续。他还对其他深度学习模型如AlexNet、GAN和Transformer的起源提出类似质疑,但这些观点未获普遍认可。网友对此评价称‘从Hochreiter到ResNet,光芒随时间递归延续’,但也有人调侃‘Schmidhuber is all you need’。
原文链接
近日,MIT终身教授何恺明正式加盟谷歌DeepMind,担任杰出科学家一职。此前,他于2023年获得MIT终身教职,仅隔一年便选择以兼职形式加入谷歌。何恺明是计算机视觉领域的顶尖学者,曾提出ResNet等经典模型,总引用量超71万次。他与谷歌DeepMind早有合作,包括今年2月发表的《Fractal Generative Models》论文,以及去年合作的Fluid项目。此次加入DeepMind基础研究组,标志着其学术与产业界双重身份的延续。
原文链接
加载更多
暂无内容