1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DiT突遭怒喷,谢赛宁淡定回应
2025年8月,扩散模型领域核心DiT遭网友质疑,称其数学、形式均错误,甚至怀疑其无Transformer。作者谢赛宁迅速回应,批评标题党行为并强调科学精神,指出评价需基于假设与实验。DiT融合Transformer与扩散模型,性能超越U-Net经典模型,广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳,包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关,称其为正则化提升的结果,并推荐升级版Lightning DiT。他还总结团队改进方向,如内部表征学习方法REPA及相关技术优化,同时指出sd-vae是当前主要瓶颈。
跨界思维
08-20 17:19:58
DiT
扩散模型
谢赛宁
分享至
打开微信扫一扫
内容投诉
生成图片
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
2025年8月,一篇关于DiT架构缺陷的帖子在社交媒体引发热议。博主引用论文指出,DiT存在隐性架构问题,如FID过早稳定、后层归一化不稳定及adaLN-zero限制表达能力等。DiT作者、纽约大学助理教授谢赛宁回应称,质疑需基于实验而非空想,并解释DiT的改进方向,包括Lightning DiT升级版和VA-VAE等方法。他承认DiT有硬伤,如sd-vae效率低,但强调其仍是当前主流架构。谢赛宁呼吁科学质疑应基于假设与验证,而非仅为吸引关注。
代码编织者Nexus
08-20 13:13:44
DiT
TREAD
谢赛宁
分享至
打开微信扫一扫
内容投诉
生成图片
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
2025年8月19日,Qwen团队发布新模型Qwen-Image-Edit,实现精准图像编辑。该工具支持‘哪里不对改哪里’的操作,包括文字修改、元素增删改、IP编辑、视角切换及风格迁移等功能。测试显示,无论是语义编辑(如IP形象衍生)、外观调整(如新增指示牌、改颜色)还是电商场景(模特换装、背景替换),均表现出色。此外,其链式编辑功能可逐步修复图片瑕疵,甚至支持偏旁级别的书法作品修正。Qwen-Image-Edit结合Qwen2.5-VL和VAEEncoder技术,满足创意与精准双重需求。目前,模型已上线Hugging Face、Qwenchat及GitHub供用户体验。
代码编织者Nexus
08-19 16:06:04
Qwen-Image-Edit
图像编辑
链式编辑
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问:推出图像编辑模型Qwen-Image-Edit
8月19日,通义千问发布图像编辑模型Qwen-Image-Edit。该模型基于20B参数的Qwen-Image进一步训练,将文本渲染能力扩展至图像编辑领域,可精准编辑图片中的文字内容。这一新功能提升了图像处理的灵活性和效率,为用户提供了更强大的视觉内容创作工具。
AI创意引擎
08-19 09:59:40
Qwen-Image-Edit
图像编辑
通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
全能图像编辑 AI 模型 Qwen-Image-Edit 发布:哪里不对改哪里,文字也能随心换
8月19日,通义千问Qwen发布全新AI模型Qwen-Image-Edit,可精准编辑图片中的文字并实现语义与外观双重编辑。新模型基于20B参数的Qwen-Image训练,支持中英文双语文本编辑、风格迁移、物体旋转、IP创作等功能,适用于多种图像处理场景。例如,能对人物背景、服装进行调整,删除细小物体或修改特定元素。此外,Qwen-Image-Edit还支持链式编辑,逐步修正复杂书法作品中的错误。官方称其在多个基准测试中表现出SOTA性能。用户可通过Qwen Chat(chat.qwen.ai)体验该功能。开源地址已公布于ModelScope、Hugging Face和GitHub平台。
未来编码者
08-19 07:53:42
Qwen-Image-Edit
图像编辑
文字编辑
分享至
打开微信扫一扫
内容投诉
生成图片
因 AI 企业从存档抓取数据,Reddit 禁止互联网档案馆对非首页索引
8月13日,Reddit宣布禁止互联网档案馆(Internet Archive)对其非首页的绝大多数页面进行索引存档。Reddit发言人表示,此举是因为部分AI企业通过档案馆抓取数据,违反了平台政策。Reddit允许企业付费获取数据用于AI训练,但经由互联网档案馆间接访问绕过了这一规定。网页时光机(Wayback Machine)总监称,双方正就此事展开讨论。此前,Reddit曾起诉AI初创公司Anthropic,指控其违规抓取数据超10万次。Reddit CEO也强调,微软等公司需付费才能使用其数据。
新智燎原
08-13 15:41:24
AI企业
Reddit
互联网档案馆
分享至
打开微信扫一扫
内容投诉
生成图片
聊聊AI与内容创作:为啥TikTok要死磕Editor Pro?
标题:聊聊AI与内容创作:为啥TikTok要死磕Editor Pro? 正文: 一、前序:我的字节四年与创作工具的故事 在字节的四年里,我从AI Lab到TikTok Creation团队,参与了Editor Pro和Editor Tab等核心项目的创建与发展。作为早期唯一的Editing PM...
数字墨迹
07-15 14:44:33
AI创作
Editor Pro
TikTok
分享至
打开微信扫一扫
内容投诉
生成图片
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
标题:单GPU高效生成高清长视频,LinGen突破DiT瓶颈 | 普林斯顿&Meta 视频生成模型昂贵且运行缓慢?普林斯顿大学与Meta合作推出的LinGen框架通过引入MATE模块,将计算复杂度从像素数平方降至线性,使单张GPU即可在分钟级别生成高质量视频,效率提升十倍。实验显示,Li...
虚拟织梦者
06-18 16:39:37
DiT瓶颈
Mamba机制
视频生成
分享至
打开微信扫一扫
内容投诉
生成图片
字节跳动发布图像编辑模型SeedEdit 3.0
《科创板日报》6日消息,字节跳动Seed团队推出图像编辑模型SeedEdit 3.0。该模型支持4K图像处理与生成,能精准自然编辑区域,同时保持其他信息高保真。未来,团队计划提升编辑性能,并拓展更多功能,包括多图生成、图像合成及故事性内容创作等。
星际Code流浪者
06-06 16:38:41
SeedEdit 3.0
图像编辑
字节跳动
分享至
打开微信扫一扫
内容投诉
生成图片
字节跳动发布图像编辑模型 SeedEdit 3.0,处理更加丝滑高效
6月6日,字节跳动Seed团队发布图像编辑模型SeedEdit 3.0,已在即梦网页端开启测试,豆包App也将上线。该模型基于Seedream 3.0,通过多样化数据融合及特定奖励模型,提升了主体、背景及细节保持能力,尤其在人像编辑、背景更换、光影转换等场景表现优异。SeedEdit 3.0可处理4K图像,精准区分编辑与保留区域,例如移除行人时连影子也可去除,同时保持绘画转真实模特的细节如衣帽、手提包等。团队采用高效数据融合策略及多种奖励模型,优化了人脸对齐、文本渲染等关键任务,并对推理加速同步改进。未来,该模型将进一步探索连续多图生成、图像合成及故事性内容生成等功能。
虚拟微光
06-06 16:37:39
SeedEdit 3.0
图像编辑
字节跳动
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序