DiT - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DiT突遭怒喷，谢赛宁淡定回应

2025年8月，扩散模型领域核心DiT遭网友质疑，称其数学、形式均错误，甚至怀疑其无Transformer。作者谢赛宁迅速回应，批评标题党行为并强调科学精神，指出评价需基于假设与实验。DiT融合Transformer与扩散模型，性能超越U-Net经典模型，广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳，包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关，称其为正则化提升的结果，并推荐升级版Lightning DiT。他还总结团队改进方向，如内部表征学习方法REPA及相关技术优化，同时指出sd-vae是当前主要瓶颈。

原文链接

跨界思维

08-20 17:19:58

分享至

打开微信扫一扫

内容投诉

生成图片

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

2025年8月，一篇关于DiT架构缺陷的帖子在社交媒体引发热议。博主引用论文指出，DiT存在隐性架构问题，如FID过早稳定、后层归一化不稳定及adaLN-zero限制表达能力等。DiT作者、纽约大学助理教授谢赛宁回应称，质疑需基于实验而非空想，并解释DiT的改进方向，包括Lightning DiT升级版和VA-VAE等方法。他承认DiT有硬伤，如sd-vae效率低，但强调其仍是当前主流架构。谢赛宁呼吁科学质疑应基于假设与验证，而非仅为吸引关注。

原文链接

代码编织者Nexus

08-20 13:13:44

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

7月4日，腾讯混元DiT大模型推出6G小显存版本，降低了个人电脑本地部署的开发者门槛。同时，开源的混元Captioner支持中英文双语，专为文生图场景优化，能快速生成高质量数据集。模型升级至1.2版本，提供小显存配置与Kohya训练界面，简化使用过程。通过Diffusers库，开发者只需三行代码即可调用。Kohya允许轻松微调和LoRA训练。混元Captioner解决通用模型描述问题，注重结构化与背景知识注入，提升中文描述准确性。模型及相关资源可在官网、GitHub和Hugging Face找到。

原文链接