1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepMind率先提出CoF:视频模型的“思维链”

DeepMind最近提出了一种新概念——帧链(CoF,chain-of-frames),类比语言模型中的“思维链”(CoT)。这一概念首次出现在其最新论文《Veo 3》中。研究发现,逐帧生成视频的过程类似于语言模型的链式推理,而“帧链”则让视频模型能够在时间和空间上进行推理。

通过实验,团队发现以Veo 3为代表的视频模型正在快速迈向通用视觉理解能力。它能够以零样本的方式完成从“看”到“想”的全链条视觉任务,展现出成为机器视觉“通用基础模型”的潜力。用一句话总结:“Veo 3是视觉推理领域的GPT-3时刻。”

为了验证视频模型是否可以像语言模型一样无需专门训练就能完成多种任务,DeepMind采用了简单直接的方法:仅提供初始图像和文字指令,让模型生成8秒720p视频。结果显示,Veo 3具备四大能力:感知、建模、操控和跨时空推理。例如,它可以完成经典视觉任务(如模糊图变清晰)、理解物理规则(如石头会沉)、改变视觉世界(如给小鸟加围巾)以及解决复杂的迷宫问题。

团队的核心结论包括:1)Veo 3在62项定性任务和7项定量任务中表现出色,能处理许多未训练过的任务;2)它展现了类似“帧链”的早期视觉推理能力;3)相比前代Veo 2,Veo 3性能显著提升,表明视频模型正迅速进化。

此外,DeepMind预测,随着成本下降和技术进步,未来通用视频模型将取代专用模型。虽然目前Veo 3在特定任务上仍落后于专用模型,但其快速进步让人联想到早期LLM的发展轨迹。通过多尝试策略和优化技术,Veo 3的性能还有巨大提升空间。

总之,DeepMind对通用视频模型充满信心,而CoF的提出有望为视频模型开辟全新方向。

论文链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

原文链接
本文链接:https://kx.umi6.com/article/26004.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepMind掌门人最新预判:AGI何时到来?
2026-01-24 18:13:40
谷歌测试 Gemini AI 游戏助手:实时分析屏幕以提供游戏建议
2024-12-12 09:48:12
DeepMind哈萨比斯最新认知都在这里了
2025-09-15 16:57:42
DeepMind旗下Isomorphic Labs将启动AI设计药物的人体试验
2025-07-07 20:36:13
谷歌 DeepMind CEO 称 DeepSeek 是“中国最好作品”,AGI 或在 5 年内到来
2025-02-10 10:02:57
MIT终身教授何恺明,入职谷歌了
2025-06-26 10:56:19
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
谷歌 DeepMind 闭关修炼《我的世界》:自学成才挖钻石,成果登 Nature
2025-04-03 14:23:13
“AI 人才争夺战”战火持续燃烧,微软挖走谷歌 DeepMind 部门 20 余名人才
2025-07-23 16:53:56
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
2025-04-07 14:01:02
DeepMind 开源大模型 GenCast 登 Nature:8 分钟预测 15 日天气
2024-12-05 14:05:26
语言游戏让 AI 自我进化,谷歌 DeepMind 推出苏格拉底式学习
2024-12-17 14:07:14
DeepMind率先提出CoF:视频模型有自己的思维链
2025-09-28 11:52:38
24小时热文
更多
扫一扫体验小程序