1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Karpathy都投的AI实时视频生成模型:直播立即转,无限时长零延迟
正文:2025年7月19日,美国加州初创公司Decart推出实时AI视频生成模型MirageLSD,获AI大神Karpathy投资。该模型基于自研Live-Stream Diffusion(LSD)技术,攻克了传统自回归视频生成中“误差累积”难题,实现零延迟、无限时长的实时视频生成,延迟降至40毫秒以下,速度比现有模型快16倍,支持每秒24帧输出。MirageLSD支持直播、游戏、视频通话等多种输入形式,并允许实时提示与编辑。其创新点包括因果自回归结构、Diffusion Forcing技术和历史增强策略,确保生成连贯性与高质量。Decart此前于2024年发布首款模型Oasis,具备零延迟开放世界生成能力。团队计划未来升级面部一致性、语音控制等功能,进一步提升用户体验。
智能视野
07-19 14:53:50
Decart
MirageLSD
实时生成
分享至
打开微信扫一扫
内容投诉
生成图片
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
腾讯旗下混元图像2.0(Hunyuan Image 2.0)发布,实现毫秒级响应的“边说边画”实时文生图功能。用户可通过文字描述或语音输入生成图像,支持参考图特征提取及画面优化。此外,新增实时绘画板模式,结合手绘草图与文本描述生成图像。技术亮点包括更大模型参数、自研高压缩比图像编解码器、适配多模态大语言模型作为文本编码器,以及强化学习后训练提升生成真实感。该模型在语义匹配能力测试中表现优异,官网已开放测试资格。腾讯混元团队还预告即将推出原生多模态图像生成大模型。
量子黑客
05-16 17:18:33
实时生成
文生图
混元图像2.0
分享至
打开微信扫一扫
内容投诉
生成图片
“千人千面”的广告时代将被AI终结
标题:“千人千面”的广告时代将被AI终结 DeepSeek的爆火不仅引发了社会对AI的大讨论,还推动各界从观望转向实践,掀起人工智能落地潮。作为互联网核心商业模式的广告,成为AI技术应用的主要战场。 搜索-推荐-广告构成了互联网核心技术栈,为AI提供了海量数据、强大的模型训练平台及落地场景。...
智能涌动
03-31 18:45:00
ai
实时生成
广告
分享至
打开微信扫一扫
内容投诉
生成图片
AI 赋能好莱坞:《此心安处》通过实时 AI 换脸技术让演员“逆生长”
索尼影业出品的电影《此心安处》(Here)于上周末大规模公映,由罗伯特·泽米吉斯执导,投资5000万美元。该片是好莱坞首部利用实时生成式AI面部变换技术的长篇电影,使汤姆·汉克斯和罗宾·怀特两位演员跨越60年的年龄跨度,无需更换演员。影片改编自2014年同名漫画小说,主要场景设在新泽西州的一间客厅,跨越多个时间段。制作团队采用Metaphysic公司的实时换脸和衰老特效技术,通过两台显示器同步显示演员的真实面貌及所需年龄的面貌。该技术基于汉克斯和怀特以往电影画面训练的机器学习模型,无需传统CGI的长时间后期制作,可实时生成面部变换效果。这种方法通过分析面部特征点并映射到训练过的年龄段上,实现了更自然的去衰老效果。
智慧轨迹
11-05 18:05:21
AI换脸技术
实时生成式AI
视觉特效
分享至
打开微信扫一扫
内容投诉
生成图片
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
标题:比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了 正文: 两位清华校友在OpenAI发布了最新研究——生成图像的速度比扩散模型快50倍。 路橙和宋飏简化了一致性模型,仅用两步采样就使生成质量与扩散模型相媲美。他们将连续时间一致性模型的训...
像素宇宙
10-24 14:09:29
一致性模型
多模态模型
实时生成
分享至
打开微信扫一扫
内容投诉
生成图片
震撼!AI实时生成游戏,每秒20帧输出,DeepMind扩散模型最新突破一夜爆火
震惊科技界!谷歌DeepMind研发出全球首个人工智能实时游戏引擎GameNGen,以每秒20帧的速度模拟经典射击游戏DOOM,实现AI实时生成游戏画面的壮举。这一创新颠覆了游戏制作的传统模式,让玩家体验到前所未有的互动体验。 GameNGen背后的原理是扩散模型,通过强化学习Agent的训练,捕...
智能涌动
08-29 14:25:45
AI实时生成游戏
DeepMind扩散模型
每秒20帧输出
分享至
打开微信扫一扫
内容投诉
生成图片
云知声推出山海多模态大模型:实时生成文本、音频和图像
【云知声发布山海多模态大模型】8月26日,云知声宣布推出其自主研发的山海多模态大模型,此模型创新地整合了多种输入形式(文本、音频、图像)并实时生成任意组合输出,具备实时响应、情绪感知、音色自由切换、视觉场景理解以及图像生成等功能。该模型在对话交互中能模仿人类响应速度,支持对话中断与插话,并能依据语音情感及节奏调整回复方式,提供个性化音色服务。此外,它还能够“看懂”周围环境,基于图像和文字提供简洁总结,并根据指令生成定制化视觉内容。这一技术突破展示了云知声在人工智能领域的深厚实力,预示着多模态交互将迎来新的变革。
心智奇点
08-26 14:53:38
云知声
实时生成文本、音频和图像
山海多模态大模型
分享至
打开微信扫一扫
内容投诉
生成图片
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
新加坡国立大学尤洋团队创新之作,首次实时生成视频的AI技术——Pyramid Attention Broadcast (PAB)惊艳亮相!这项免训练方法利用5个4s 480p视频测试,实现21.6FPS的实时生成,且质量不降。PAB通过减少冗余注意力计算,提供10.6倍加速,革新了基于DiT的视频生成模型,如Open-Sora。网友和专业人士高度评价,认为这是视频生成领域的重大突破,可能开启新纪元。研究已在Open-Sora上公开,尤洋教授带领的年轻团队展现了前沿科技实力。
智能维度跳跃
06-28 21:59:51
ai
Pyramid Attention Broadcast (PAB)
实时生成视频
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序