何恺明 - AI优秘圈

全员本科生！何恺明组新作：文生图，258M参数就够了

近日，MIT副教授何恺明携5位本科生团队发布文生图新模型MiniT2I。在业界依赖数十亿参数的背景下，该团队基于全新MM-JiT架构“删繁就简”，摒弃VAE等复杂模块，直接在像素空间进行扩散生成。最终，MiniT2I仅用258M参数即实现优异效果，训练成本仅需8张H100显卡运行约3天，相当于一次标准ImageNet实验算力。此外，除何恺明外，论文其余5位作者均为MIT或清华本科生，且多为国际奥赛金牌得主。该研究不仅打破了文生图对海量算力的依赖，更展现了年轻学者在AI前沿的巨大潜力。

原文链接

智能维度跳跃

06-18 17:37:13

分享至

打开微信扫一扫

内容投诉

生成图片

今年CVPR看点是广东：何恺明再获至高大奖，广工大打破大厂名校垄断

近日，CVPR 2026在美国丹佛揭晓重磅奖项，华人学者表现抢眼，中国作者与审稿人数量断层第一。最佳论文由Google DeepMind等团队的D4RT斩获，实现高效动态4D场景重建；最佳学生论文归属清华与微软团队的3D生成模型TRELLIS.2。最亮眼的是，广东工业大学等纯国内高校团队凭借ChordEdit获最佳学生论文提名，本科生一作打破大厂名校垄断。此外，何恺明等人提出的ResNet与YOLO v1同获时间检验奖。本届大会投稿量超1.6万篇创历史新高，华人力量持续引领全球AI视觉前沿。

原文链接

新智燎原

06-06 15:50:06

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明首个语言模型：105M参数，不走GPT自回归老路

2026年5月，何恺明团队发布首个语言模型ELF，参数仅105M，采用扩散语言模型（DLM）新路线。与传统自回归方法不同，ELF全程在连续embedding空间生成，最后一步才离散化为token，显著减少训练和采样成本。实验显示，ELF在OpenWebText任务中以32步采样、45B训练token将生成困惑度降至24，超越主流扩散模型，后者通常需1024步和500B+训练token。ELF还通过‘连续表示’与‘离散输出’分离设计，在质量、速度和成本上实现突破。团队成员包括MIT博士生胡珂雅、Linlu Qiu及清华姚班本科生陆伊炀等，研究结合视觉与语言交叉领域，成果已引发广泛关注。

原文链接

智慧轨迹

05-13 10:04:52

分享至

打开微信扫一扫

内容投诉

生成图片

邓明扬一作论文改写生成范式！何恺明也署名了

正文：2026年2月，何恺明团队提出全新生成模型范式——漂移模型（Drifting Models），一作是人大附中校友、IMO与IOI双料金牌得主邓明扬。漂移模型将生成分布的演化从推理阶段转移到训练阶段，实现单步生成（One-step Generation）。其核心创新为引入“漂移场”机制，在训练中直接对齐先验分布与真实数据分布，消除了GANs的对抗训练不稳定性，并摆脱了扩散模型对多步求解的依赖。在ImageNet 256×256基准测试中，该模型以1-NFE取得1.54 FID的成绩，超越许多传统多步生成模型。此外，模型在具身智能控制任务中也表现出色，单步推理即可匹敌需100步的传统方法。

原文链接

幻彩逻辑RainbowLogic

02-06 02:22:57

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明带大二本科生颠覆扩散图像生成：扔掉多步采样和潜空间，一步像素直出

正文：2026年1月，何恺明团队联合MIT本科生提出全新图像生成方法Pixel Mean Flow（pMF），颠覆传统扩散模型。该方法抛弃多步采样和潜空间编码，直接在像素空间一步生成高质量图像，在ImageNet 256×256分辨率上达到2.22 FID，512×512分辨率上为2.48 FID，创下单步无潜空间模型最佳成绩。pMF核心设计通过网络直接输出像素级去噪图像，并以速度场计算损失，基于流形假设简化复杂任务。实验表明，其计算效率远超StyleGAN-XL等方法，且避免了VAE解码器的额外开销。团队希望推动端到端生成建模研究。

原文链接

LunarCoder

02-02 16:48:05

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明组三位本科生领衔！持续聚焦Flow模型，突破归一化流生成效率瓶颈

正文：2025年12月，何恺明团队发布新论文，提出名为双向归一化流（BiFlow）的框架，突破归一化流生成模型效率瓶颈。该方法通过解耦前向与逆向过程，使逆向生成无需精确匹配前向过程，大幅提升速度和灵活性。实验显示，BiFlow在ImageNet 256×256数据集上取得2.39的FID分数，推理速度较基线提升两个数量级（TPU上快697倍）。此外，BiFlow支持图像修复和编辑任务。论文由三位本科生领衔，包括清华姚班陆伊炀、MIT Qiao Sun及刚入学MIT的王衔邦，均为何恺明指导。

原文链接

智能维度跳跃

12-15 15:44:36

分享至

打开微信扫一扫

内容投诉

生成图片

后生可畏！何恺明团队新成果发布，共一清华姚班大二在读

2025年12月，何恺明团队发布新成果Improved MeanFlow (iMF)，解决原始MeanFlow在训练稳定性、指导灵活性和架构效率上的三大问题。通过重构预测函数为标准回归问题，引入无分类器指导（CFG）和上下文内条件作用，模型性能大幅提升。在ImageNet 256×256基准测试中，iMF-XL/2模型单步生成FID达1.72，较原始版本提升50%，媲美多步扩散模型。论文一作为CMU博士生耿正阳，共一为清华姚班大二学生Yiyang Lu，后者现于MIT跟随何恺明研究计算机视觉。其他合作者包括Adobe研究员Zongze Wu、Eli Shechtman及CMU机器学习系主任Zico Kolter。该研究部分完成于MIT，何恺明教授署名尾作。

原文链接

WisdomTrail

12-04 09:08:44

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明团队新作：扩散模型可能被用错了

正文：2025年11月，何恺明团队发布新论文，提出扩散模型可能被用错的观点。研究指出，当前主流扩散模型在训练时多预测噪声或速度场，而非直接生成干净图像，这与模型本质相悖。基于流形假设，团队认为神经网络更适合学习将噪声投影回低维流形的干净数据，而非拟合高维噪声。为此，他们提出极简架构JiT（Just image Transformers），完全从像素出发，直接预测图像块，无需VAE、Tokenizer等复杂组件。实验表明，JiT在高维空间下表现稳健，在ImageNet 256×256和512×512生成任务中分别取得1.82和1.78的SOTA级FID分数。论文一作为黎天鸿，清华姚班本科毕业，现为何恺明组博士后。

原文链接

数字墨迹

11-20 11:15:51

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明MIT两名新弟子曝光：首次有女生入组，另一位是FNO发明者，均为华人

何恺明MIT两名新弟子曝光：首次有女生入组，另一位是FNO发明者，均为华人 AI大牛何恺明的团队近日新增两名成员——博士生胡珂雅和博士后李宗宜，均为华人学者。至此，何恺明任教MIT以来招募的6名学生中，5名为中国面孔。胡珂雅：上交学霸直博MIT 胡珂雅本科毕业于上海交通大学ACM班，高中就读于福建...

原文链接

心智奇点

11-06 20:12:52

分享至

打开微信扫一扫

内容投诉

生成图片

LSTM之父向何恺明开炮：我学生才是残差学习奠基人

2025年10月，LSTM之父Jürgen Schmidhuber再次引发争议，称其学生Sepp Hochreiter早在1991年就提出循环残差连接解决梯度消失问题，认为残差学习的奠基人应归功于Hochreiter而非何恺明团队。Schmidhuber指出，1997年提出的LSTM和1999年的vanilla LSTM均基于此思想，而2015年的Highway网络和ResNet是这一理念的延续。他还对其他深度学习模型如AlexNet、GAN和Transformer的起源提出类似质疑，但这些观点未获普遍认可。网友对此评价称‘从Hochreiter到ResNet，光芒随时间递归延续’，但也有人调侃‘Schmidhuber is all you need’。

原文链接

智能维度跳跃

10-19 22:54:26

分享至

打开微信扫一扫

内容投诉

生成图片