
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
谷歌DeepMind推出文本生成新模型Gemini Diffusion,采用扩散技术,12秒可生成1万tokens,速度达2000tokens/秒,远超传统自回归模型。该模型通过逐步优化噪声生成输出,不仅能快速迭代,还能在生成过程中进行错误修正,适用于代码编辑及数学推理等任务。例如,在非因果推理测试中,Gemini Diffusion能同时生成完整答案及推导过程,而GPT-4o等自回归模型难以完成此类任务。目前,Gemini Diffusion仍处于实验阶段,用户可通过官方链接申请体验。这项技术可能预示未来混合模型的发展趋势,值得关注。
原文链接
标题:速度秒杀GPT们10倍,国外的DeepSeek时代来了?
前几天,一家名不见经传的小公司Inception Labs发布了一个重磅消息——他们推出了全球首个商业级扩散大模型Mercury。Mercury或许将彻底改变大模型过去三年多的发展路径。
Mercury在多项测试中表现亮眼,其生成速度比...
原文链接
Stability AI 近日发布开源文生图模型Stable Diffusion 3.5,共提供Medium(10月29日发布)、Large和Large Turbo三种规模版本,以满足不同用户需求。其中,Large版本拥有80亿参数,专为专业场景设计;Turbo版本则是Large的简化版,优化了生成速度。Medium版本则具备25亿参数,采用MMDiT-X架构,预计10月29日上线,目标是在消费级硬件上实现“开箱即用”。尽管如此,Stability AI表示此次发布尚未完全达到预期,后续将继续优化。该系列模型均采用宽松社区许可,允许非商业用途免费使用,并对年收入低于100万美元的企业开放,超出门槛的企业需另行协商。
原文链接
Runway,一家知名AI视频创企,突然从Hugging Face和GitHub两大开源社区上清空了其开源模型,仅留下“404”和一段注释,表明已不再维护Hugging Face组织。这一行动引发了外界猜测,推测原因可能与Stability AI的利益纠纷或涉及侵权问题“销毁证据”有关。在官方未回应...
原文链接
标题:FLUX与Midjourney:图像AI的新竞争者
正文:
曾经与DALL·E、Midjourney齐名的图像生成AI Stable Diffusion,因内部动荡陷入困境。然而,其前团队成员在年初成立了Black Forest Lab(黑森林实验室),并迅速发布了三个图像生成模型——FLUX...
原文链接
AI图像与视频生成领域迎来新力量!原Stability AI研究科学家Robin Rombach宣布成立Black Forest Labs,携前同事共同创业。团队汇聚AI领域顶尖人才,拥有丰富成果,如VQGAN、Latent Diffusion、Stable Diffusion等。Black For...
原文链接
黑森林实验室,由Stable Diffusion的核心团队成员创建,今日宣布成立。该实验室推出了FLUX.1系列图像生成模型,包括pro、dev和schnell三个版本,分别在性能、效率和速度上各有侧重。其中,pro版本在视觉质量、提示响应度、尺寸灵活性、排版和输出多样性方面,超越了竞品如Midjourney v6.0、DALL·E 3 HD和Stable Diffusion 3-Ultra。黑森林实验室表示,其目标是提供先进的图像和视频生成深度学习模型,并在广泛受众中普及。此外,黑森林实验室宣布已完成3200万美元的融资,由a16z领投,多位行业大佬参与投资。随着新模型的发布,黑森林实验室还展示了其在视频生成领域的野心,计划推出“SOTA”级别的产品。
原文链接
标题:开源文生图模型FLUX.1发布,性能超越主流模型
智东西8月2日报道,开源文生图模型霸主Stable Diffusion原班人马宣布推出全新图像生成模型FLUX.1,包含专业版、开发者版、快速版三种模型。FLUX.1在文字生成、复杂指令遵循和人手生成上表现优异,其中专业版模型在生成大段文字、...
原文链接
多伦多大学、北京交通大学等机构合作开发出4D视频生成模型Diffusion4D,通过Scaling Laws筛选出81K高质量4D数据集。研究人员利用8卡GPU在30天内渲染出400万张图片,包括动态3D物体的环拍和视频。该模型是首个大规模数据集驱动的4D内容生成框架,现已开源全部数据集和渲染脚本。研究解决了过去4D内容生成中的时空一致性问题,实现了文本、图像到4D内容的高效生成,且在生成质量和速度上超越现有方法。未来,4D内容生成领域还有广阔的研究空间。
原文链接
何恺明继入职MIT后首次独立带队,带领包括奥赛双料金牌得主邓明扬在内的团队,提出全新方法让自回归模型告别矢量量化,采用连续值生成图像。他们借鉴扩散模型思想,提出了Diffusion Loss,消除了离散tokenizer的需求。论文展示了这一创新在AR、MAR模型上的优越性能,小模型达到1.98 FID分数,大模型甚至达到1.55 SOTA。此外,团队还在量子物理学方向应用强化学习,优化动态异构量子资源调度,成绩提升3倍以上。何恺明的多领域探索显示其在CV和AI4S的活跃身影。
原文链接
加载更多

暂无内容