
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,扩散模型领域核心DiT遭网友质疑,称其数学、形式均错误,甚至怀疑其无Transformer。作者谢赛宁迅速回应,批评标题党行为并强调科学精神,指出评价需基于假设与实验。DiT融合Transformer与扩散模型,性能超越U-Net经典模型,广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳,包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关,称其为正则化提升的结果,并推荐升级版Lightning DiT。他还总结团队改进方向,如内部表征学习方法REPA及相关技术优化,同时指出sd-vae是当前主要瓶颈。
原文链接
2025年8月,一篇关于DiT架构缺陷的帖子在社交媒体引发热议。博主引用论文指出,DiT存在隐性架构问题,如FID过早稳定、后层归一化不稳定及adaLN-zero限制表达能力等。DiT作者、纽约大学助理教授谢赛宁回应称,质疑需基于实验而非空想,并解释DiT的改进方向,包括Lightning DiT升级版和VA-VAE等方法。他承认DiT有硬伤,如sd-vae效率低,但强调其仍是当前主流架构。谢赛宁呼吁科学质疑应基于假设与验证,而非仅为吸引关注。
原文链接
2025年8月19日,Qwen团队发布新模型Qwen-Image-Edit,实现精准图像编辑。该工具支持‘哪里不对改哪里’的操作,包括文字修改、元素增删改、IP编辑、视角切换及风格迁移等功能。测试显示,无论是语义编辑(如IP形象衍生)、外观调整(如新增指示牌、改颜色)还是电商场景(模特换装、背景替换),均表现出色。此外,其链式编辑功能可逐步修复图片瑕疵,甚至支持偏旁级别的书法作品修正。Qwen-Image-Edit结合Qwen2.5-VL和VAEEncoder技术,满足创意与精准双重需求。目前,模型已上线Hugging Face、Qwenchat及GitHub供用户体验。
原文链接
8月19日,通义千问发布图像编辑模型Qwen-Image-Edit。该模型基于20B参数的Qwen-Image进一步训练,将文本渲染能力扩展至图像编辑领域,可精准编辑图片中的文字内容。这一新功能提升了图像处理的灵活性和效率,为用户提供了更强大的视觉内容创作工具。
原文链接
8月19日,通义千问Qwen发布全新AI模型Qwen-Image-Edit,可精准编辑图片中的文字并实现语义与外观双重编辑。新模型基于20B参数的Qwen-Image训练,支持中英文双语文本编辑、风格迁移、物体旋转、IP创作等功能,适用于多种图像处理场景。例如,能对人物背景、服装进行调整,删除细小物体或修改特定元素。此外,Qwen-Image-Edit还支持链式编辑,逐步修正复杂书法作品中的错误。官方称其在多个基准测试中表现出SOTA性能。用户可通过Qwen Chat(chat.qwen.ai)体验该功能。开源地址已公布于ModelScope、Hugging Face和GitHub平台。
原文链接
8月13日,Reddit宣布禁止互联网档案馆(Internet Archive)对其非首页的绝大多数页面进行索引存档。Reddit发言人表示,此举是因为部分AI企业通过档案馆抓取数据,违反了平台政策。Reddit允许企业付费获取数据用于AI训练,但经由互联网档案馆间接访问绕过了这一规定。网页时光机(Wayback Machine)总监称,双方正就此事展开讨论。此前,Reddit曾起诉AI初创公司Anthropic,指控其违规抓取数据超10万次。Reddit CEO也强调,微软等公司需付费才能使用其数据。
原文链接
标题:聊聊AI与内容创作:为啥TikTok要死磕Editor Pro?
正文:
一、前序:我的字节四年与创作工具的故事
在字节的四年里,我从AI Lab到TikTok Creation团队,参与了Editor Pro和Editor Tab等核心项目的创建与发展。作为早期唯一的Editing PM...
原文链接
标题:单GPU高效生成高清长视频,LinGen突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型昂贵且运行缓慢?普林斯顿大学与Meta合作推出的LinGen框架通过引入MATE模块,将计算复杂度从像素数平方降至线性,使单张GPU即可在分钟级别生成高质量视频,效率提升十倍。实验显示,Li...
原文链接
《科创板日报》6日消息,字节跳动Seed团队推出图像编辑模型SeedEdit 3.0。该模型支持4K图像处理与生成,能精准自然编辑区域,同时保持其他信息高保真。未来,团队计划提升编辑性能,并拓展更多功能,包括多图生成、图像合成及故事性内容创作等。
原文链接
6月6日,字节跳动Seed团队发布图像编辑模型SeedEdit 3.0,已在即梦网页端开启测试,豆包App也将上线。该模型基于Seedream 3.0,通过多样化数据融合及特定奖励模型,提升了主体、背景及细节保持能力,尤其在人像编辑、背景更换、光影转换等场景表现优异。SeedEdit 3.0可处理4K图像,精准区分编辑与保留区域,例如移除行人时连影子也可去除,同时保持绘画转真实模特的细节如衣帽、手提包等。团队采用高效数据融合策略及多种奖励模型,优化了人脸对齐、文本渲染等关键任务,并对推理加速同步改进。未来,该模型将进一步探索连续多图生成、图像合成及故事性内容生成等功能。
原文链接
加载更多

暂无内容