Hotshot,一家由四人组成的AI创企,成功推出了其视频模型的预览版Hotshot,这一成就堪比OpenAI团队的“Sora”。Hotshot的Transformer扩散模型在对齐、一致性和运动表现上表现出色,同时具备生成更长、更高分辨率AI视频的能力。团队在4个月内完成最新版本数据训练,耗资巨大,每小时投入数百万H100。Hotshot提供了与同行对比的案例,生成的视频清晰度高、画面准确,视频长度稳定在5秒,流畅度佳。
用户反馈显示,70%的用户更偏爱Hotshot的生成结果。目前,Hotshot的测试版已上线官网供用户免费试用,每日每位用户有两次机会生成无水印视频。Hotshot团队分享了从零开始构建文生视频模型的历程,包括数据工程、研究、训练和扩展等多个阶段的关键挑战。
在数据工程阶段,团队设定目标扩大视频和图像数据库,通过联合使用图像和视频训练模型,解决视频理解和时间理解的问题。训练过程中,团队面临了管理数千个GPU的挑战,一度担心因优化代码过度导致机房过热。通过优化代码、使用不同数据/模型并行性、编写自定义内核等方式,Hotshot在基础设施和优化上投入了大量时间。
经过13个月的努力,Hotshot共推出了三种不同的视频模型。第一款Hotshot-XL可生成1秒8fps的视频,耗时3个月研发。第二款Hotshot Act-One则能在5个月内生成3秒8fps的视频,并将视频数据集扩展至2亿个带字幕的公开视频。最后,Hotshot能够生成长达10秒的720P视频。Hotshot创始人预测,AI生成内容将在未来一年内成为数字媒体的主流,尤其在YouTube视频制作方面,创作者将能全程控制从文本到视频乃至音频的生成过程。
在AI文生视频领域,Hotshot的加入无疑增加了竞争的激烈程度。在短短6个月内,已有包括Runway Gen-3、PixVerse V2、Vidu、Dream Machine在内的10余款AI文生视频模型涌现。面对激烈的竞争环境,Hotshot能否稳固其地位,让我们拭目以待。
.png)

-
2025-07-21 15:18:28
-
2025-07-21 14:20:17
-
2025-07-21 14:19:09