1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepMind率先提出CoF:视频模型的“思维链”

DeepMind最近提出了一种新概念——帧链(CoF,chain-of-frames),类比语言模型中的“思维链”(CoT)。这一概念首次出现在其最新论文《Veo 3》中。研究发现,逐帧生成视频的过程类似于语言模型的链式推理,而“帧链”则让视频模型能够在时间和空间上进行推理。

通过实验,团队发现以Veo 3为代表的视频模型正在快速迈向通用视觉理解能力。它能够以零样本的方式完成从“看”到“想”的全链条视觉任务,展现出成为机器视觉“通用基础模型”的潜力。用一句话总结:“Veo 3是视觉推理领域的GPT-3时刻。”

为了验证视频模型是否可以像语言模型一样无需专门训练就能完成多种任务,DeepMind采用了简单直接的方法:仅提供初始图像和文字指令,让模型生成8秒720p视频。结果显示,Veo 3具备四大能力:感知、建模、操控和跨时空推理。例如,它可以完成经典视觉任务(如模糊图变清晰)、理解物理规则(如石头会沉)、改变视觉世界(如给小鸟加围巾)以及解决复杂的迷宫问题。

团队的核心结论包括:1)Veo 3在62项定性任务和7项定量任务中表现出色,能处理许多未训练过的任务;2)它展现了类似“帧链”的早期视觉推理能力;3)相比前代Veo 2,Veo 3性能显著提升,表明视频模型正迅速进化。

此外,DeepMind预测,随着成本下降和技术进步,未来通用视频模型将取代专用模型。虽然目前Veo 3在特定任务上仍落后于专用模型,但其快速进步让人联想到早期LLM的发展轨迹。通过多尝试策略和优化技术,Veo 3的性能还有巨大提升空间。

总之,DeepMind对通用视频模型充满信心,而CoF的提出有望为视频模型开辟全新方向。

论文链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

原文链接
本文链接:https://kx.umi6.com/article/26004.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软 AI 首席执行官集结 DeepMind 旧部共筑 AI 新未来
2025-02-06 14:33:11
谷歌 DeepMind 闭关修炼《我的世界》:自学成才挖钻石,成果登 Nature
2025-04-03 14:23:13
DeepMind天才科学家疑自杀,AI圈悲痛不已
2025-01-03 12:41:14
DeepMind掌门人:AI将颠覆制药业,新药研发不再是马拉松
2025-09-12 21:21:22
谷歌 DeepMind 携手 BioNTech 打造 AI 科学助手:规划实验、预测结果,助力科技变革
2024-10-09 10:12:46
谷歌 DeepMind CEO:当前 AI 综合智力还不如普通家猫
2024-07-10 15:09:36
谷歌宣布将 AI Studio 团队整体转移至 DeepMind 旗下,整合人工智能部门项目提升效率
2025-01-11 22:42:58
波士顿动力前CTO加盟DeepMind,Gemini要做机器人界的安卓
2025-11-25 14:53:51
无需 3D 模型 / 物理引擎:谷歌 DeepMind 联合开发力提示技术,AI 生成视频可模拟真实运动
2025-06-04 09:16:20
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
2025-05-31 13:04:33
谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务
2025-03-12 23:51:20
OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队
2025-01-07 13:03:56
语言游戏让 AI 自我进化,谷歌 DeepMind 推出苏格拉底式学习
2024-12-17 14:07:14
24小时热文
更多
扫一扫体验小程序