1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepMind率先提出CoF:视频模型的“思维链”

DeepMind最近提出了一种新概念——帧链(CoF,chain-of-frames),类比语言模型中的“思维链”(CoT)。这一概念首次出现在其最新论文《Veo 3》中。研究发现,逐帧生成视频的过程类似于语言模型的链式推理,而“帧链”则让视频模型能够在时间和空间上进行推理。

通过实验,团队发现以Veo 3为代表的视频模型正在快速迈向通用视觉理解能力。它能够以零样本的方式完成从“看”到“想”的全链条视觉任务,展现出成为机器视觉“通用基础模型”的潜力。用一句话总结:“Veo 3是视觉推理领域的GPT-3时刻。”

为了验证视频模型是否可以像语言模型一样无需专门训练就能完成多种任务,DeepMind采用了简单直接的方法:仅提供初始图像和文字指令,让模型生成8秒720p视频。结果显示,Veo 3具备四大能力:感知、建模、操控和跨时空推理。例如,它可以完成经典视觉任务(如模糊图变清晰)、理解物理规则(如石头会沉)、改变视觉世界(如给小鸟加围巾)以及解决复杂的迷宫问题。

团队的核心结论包括:1)Veo 3在62项定性任务和7项定量任务中表现出色,能处理许多未训练过的任务;2)它展现了类似“帧链”的早期视觉推理能力;3)相比前代Veo 2,Veo 3性能显著提升,表明视频模型正迅速进化。

此外,DeepMind预测,随着成本下降和技术进步,未来通用视频模型将取代专用模型。虽然目前Veo 3在特定任务上仍落后于专用模型,但其快速进步让人联想到早期LLM的发展轨迹。通过多尝试策略和优化技术,Veo 3的性能还有巨大提升空间。

总之,DeepMind对通用视频模型充满信心,而CoF的提出有望为视频模型开辟全新方向。

论文链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

原文链接
本文链接:https://kx.umi6.com/article/26004.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Demis Hassabis荣获诺贝尔化学奖,网友:诺奖需要AI
2024-10-10 11:39:38
谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙
2025-07-24 10:03:30
乒乓球AI达中级水平,应对复杂物理世界不再是人类专长
2024-08-16 02:48:48
谷歌DeepMind CEO评价Deepseek为中国最好的作品:但外界炒作有点夸大
2025-02-10 13:14:11
“AI 人才争夺战”战火持续燃烧,微软挖走谷歌 DeepMind 部门 20 余名人才
2025-07-23 16:53:56
DeepMind 开源大模型 GenCast 登 Nature:8 分钟预测 15 日天气
2024-12-05 14:05:26
MIT终身教授何恺明,入职谷歌了
2025-06-26 10:56:19
DeepMind新方法:训练时间减少13倍,算力降低90%
2024-07-10 15:29:48
DeepMind元老创业AI编程:亮相即获1.55亿美元,英伟达红杉抢着投,团队太豪华了!
2025-03-08 12:47:42
谷歌计划将 Gemini 并入 Deepmind,下个月开始生效
2024-10-21 11:24:40
DeepMind率先提出CoF:视频模型有自己的思维链
2025-09-28 11:52:38
谷歌测试 Gemini AI 游戏助手:实时分析屏幕以提供游戏建议
2024-12-12 09:48:12
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
2025-05-31 13:04:33
24小时热文
更多
扫一扫体验小程序