综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,扩散模型领域核心DiT遭网友质疑,称其数学、形式均错误,甚至怀疑其无Transformer。作者谢赛宁迅速回应,批评标题党行为并强调科学精神,指出评价需基于假设与实验。DiT融合Transformer与扩散模型,性能超越U-Net经典模型,广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳,包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关,称其为正则化提升的结果,并推荐升级版Lightning DiT。他还总结团队改进方向,如内部表征学习方法REPA及相关技术优化,同时指出sd-vae是当前主要瓶颈。
原文链接
2025年8月,一篇关于DiT架构缺陷的帖子在社交媒体引发热议。博主引用论文指出,DiT存在隐性架构问题,如FID过早稳定、后层归一化不稳定及adaLN-zero限制表达能力等。DiT作者、纽约大学助理教授谢赛宁回应称,质疑需基于实验而非空想,并解释DiT的改进方向,包括Lightning DiT升级版和VA-VAE等方法。他承认DiT有硬伤,如sd-vae效率低,但强调其仍是当前主流架构。谢赛宁呼吁科学质疑应基于假设与验证,而非仅为吸引关注。
原文链接
7月4日,腾讯混元DiT大模型推出6G小显存版本,降低了个人电脑本地部署的开发者门槛。同时,开源的混元Captioner支持中英文双语,专为文生图场景优化,能快速生成高质量数据集。模型升级至1.2版本,提供小显存配置与Kohya训练界面,简化使用过程。通过Diffusers库,开发者只需三行代码即可调用。Kohya允许轻松微调和LoRA训练。混元Captioner解决通用模型描述问题,注重结构化与背景知识注入,提升中文描述准确性。模型及相关资源可在官网、GitHub和Hugging Face找到。
原文链接
加载更多
暂无内容