实时生成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Karpathy都投的AI实时视频生成模型：直播立即转，无限时长零延迟

正文：2025年7月19日，美国加州初创公司Decart推出实时AI视频生成模型MirageLSD，获AI大神Karpathy投资。该模型基于自研Live-Stream Diffusion（LSD）技术，攻克了传统自回归视频生成中“误差累积”难题，实现零延迟、无限时长的实时视频生成，延迟降至40毫秒以下，速度比现有模型快16倍，支持每秒24帧输出。MirageLSD支持直播、游戏、视频通话等多种输入形式，并允许实时提示与编辑。其创新点包括因果自回归结构、Diffusion Forcing技术和历史增强策略，确保生成连贯性与高质量。Decart此前于2024年发布首款模型Oasis，具备零延迟开放世界生成能力。团队计划未来升级面部一致性、语音控制等功能，进一步提升用户体验。

原文链接

智能视野

07-19 14:53:50

Decart

MirageLSD

实时生成

分享至

打开微信扫一扫

内容投诉

生成图片

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

腾讯旗下混元图像2.0（Hunyuan Image 2.0）发布，实现毫秒级响应的“边说边画”实时文生图功能。用户可通过文字描述或语音输入生成图像，支持参考图特征提取及画面优化。此外，新增实时绘画板模式，结合手绘草图与文本描述生成图像。技术亮点包括更大模型参数、自研高压缩比图像编解码器、适配多模态大语言模型作为文本编码器，以及强化学习后训练提升生成真实感。该模型在语义匹配能力测试中表现优异，官网已开放测试资格。腾讯混元团队还预告即将推出原生多模态图像生成大模型。

原文链接

量子黑客

05-16 17:18:33

实时生成

文生图

混元图像2.0

分享至

打开微信扫一扫

内容投诉

生成图片

“千人千面”的广告时代将被AI终结

标题：“千人千面”的广告时代将被AI终结 DeepSeek的爆火不仅引发了社会对AI的大讨论，还推动各界从观望转向实践，掀起人工智能落地潮。作为互联网核心商业模式的广告，成为AI技术应用的主要战场。搜索-推荐-广告构成了互联网核心技术栈，为AI提供了海量数据、强大的模型训练平台及落地场景。...

原文链接

智能涌动

03-31 18:45:00

实时生成

分享至

打开微信扫一扫

内容投诉

生成图片

AI 赋能好莱坞：《此心安处》通过实时 AI 换脸技术让演员“逆生长”

索尼影业出品的电影《此心安处》（Here）于上周末大规模公映，由罗伯特·泽米吉斯执导，投资5000万美元。该片是好莱坞首部利用实时生成式AI面部变换技术的长篇电影，使汤姆·汉克斯和罗宾·怀特两位演员跨越60年的年龄跨度，无需更换演员。影片改编自2014年同名漫画小说，主要场景设在新泽西州的一间客厅，跨越多个时间段。制作团队采用Metaphysic公司的实时换脸和衰老特效技术，通过两台显示器同步显示演员的真实面貌及所需年龄的面貌。该技术基于汉克斯和怀特以往电影画面训练的机器学习模型，无需传统CGI的长时间后期制作，可实时生成面部变换效果。这种方法通过分析面部特征点并映射到训练过的年龄段上，实现了更自然的去衰老效果。

原文链接

智慧轨迹

11-05 18:05:21

AI换脸技术

实时生成式AI

视觉特效

分享至

打开微信扫一扫

内容投诉

生成图片

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

标题：比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了正文：两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。路橙和宋飏简化了一致性模型，仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训...

原文链接

像素宇宙

10-24 14:09:29

一致性模型

多模态模型

实时生成

分享至

打开微信扫一扫

内容投诉

生成图片

震撼！AI实时生成游戏，每秒20帧输出，DeepMind扩散模型最新突破一夜爆火

震惊科技界！谷歌DeepMind研发出全球首个人工智能实时游戏引擎GameNGen，以每秒20帧的速度模拟经典射击游戏DOOM，实现AI实时生成游戏画面的壮举。这一创新颠覆了游戏制作的传统模式，让玩家体验到前所未有的互动体验。 GameNGen背后的原理是扩散模型，通过强化学习Agent的训练，捕...

原文链接

智能涌动

08-29 14:25:45

AI实时生成游戏

DeepMind扩散模型

每秒20帧输出

分享至

打开微信扫一扫

内容投诉

生成图片

云知声推出山海多模态大模型：实时生成文本、音频和图像

【云知声发布山海多模态大模型】8月26日，云知声宣布推出其自主研发的山海多模态大模型，此模型创新地整合了多种输入形式（文本、音频、图像）并实时生成任意组合输出，具备实时响应、情绪感知、音色自由切换、视觉场景理解以及图像生成等功能。该模型在对话交互中能模仿人类响应速度，支持对话中断与插话，并能依据语音情感及节奏调整回复方式，提供个性化音色服务。此外，它还能够“看懂”周围环境，基于图像和文字提供简洁总结，并根据指令生成定制化视觉内容。这一技术突破展示了云知声在人工智能领域的深厚实力，预示着多模态交互将迎来新的变革。

原文链接

心智奇点

08-26 14:53:38

云知声

实时生成文本、音频和图像

山海多模态大模型

分享至

打开微信扫一扫

内容投诉

生成图片

AI首次实时生成视频！尤洋团队新作，网友：这是新纪元

新加坡国立大学尤洋团队创新之作，首次实时生成视频的AI技术——Pyramid Attention Broadcast (PAB)惊艳亮相！这项免训练方法利用5个4s 480p视频测试，实现21.6FPS的实时生成，且质量不降。PAB通过减少冗余注意力计算，提供10.6倍加速，革新了基于DiT的视频生成模型，如Open-Sora。网友和专业人士高度评价，认为这是视频生成领域的重大突破，可能开启新纪元。研究已在Open-Sora上公开，尤洋教授带领的年轻团队展现了前沿科技实力。

原文链接