1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepMind率先提出CoF:视频模型的“思维链”

DeepMind最近提出了一种新概念——帧链(CoF,chain-of-frames),类比语言模型中的“思维链”(CoT)。这一概念首次出现在其最新论文《Veo 3》中。研究发现,逐帧生成视频的过程类似于语言模型的链式推理,而“帧链”则让视频模型能够在时间和空间上进行推理。

通过实验,团队发现以Veo 3为代表的视频模型正在快速迈向通用视觉理解能力。它能够以零样本的方式完成从“看”到“想”的全链条视觉任务,展现出成为机器视觉“通用基础模型”的潜力。用一句话总结:“Veo 3是视觉推理领域的GPT-3时刻。”

为了验证视频模型是否可以像语言模型一样无需专门训练就能完成多种任务,DeepMind采用了简单直接的方法:仅提供初始图像和文字指令,让模型生成8秒720p视频。结果显示,Veo 3具备四大能力:感知、建模、操控和跨时空推理。例如,它可以完成经典视觉任务(如模糊图变清晰)、理解物理规则(如石头会沉)、改变视觉世界(如给小鸟加围巾)以及解决复杂的迷宫问题。

团队的核心结论包括:1)Veo 3在62项定性任务和7项定量任务中表现出色,能处理许多未训练过的任务;2)它展现了类似“帧链”的早期视觉推理能力;3)相比前代Veo 2,Veo 3性能显著提升,表明视频模型正迅速进化。

此外,DeepMind预测,随着成本下降和技术进步,未来通用视频模型将取代专用模型。虽然目前Veo 3在特定任务上仍落后于专用模型,但其快速进步让人联想到早期LLM的发展轨迹。通过多尝试策略和优化技术,Veo 3的性能还有巨大提升空间。

总之,DeepMind对通用视频模型充满信心,而CoF的提出有望为视频模型开辟全新方向。

论文链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

原文链接
本文链接:https://kx.umi6.com/article/26004.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepMind 资深科学家从谷歌离职创办机器人初创公司,获英伟达投资
2025-03-20 16:41:21
DeepMind英国员工举旗反抗,硬刚谷歌交易AI军工合同
2025-04-26 22:56:53
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
谷歌 DeepMind 闭关修炼《我的世界》:自学成才挖钻石,成果登 Nature
2025-04-03 14:23:13
谷歌 DeepMind 携手 BioNTech 打造 AI 科学助手:规划实验、预测结果,助力科技变革
2024-10-09 10:12:46
谷歌DeepMind用AI探测引力波,登上Science了
2025-09-13 14:28:42
谷歌 Aeneas 模型登场:AI 助力解读铭文,解码古代文明的新钥匙
2025-07-24 10:03:30
DeepMind掌门人最新预判:AGI何时到来?
2026-01-24 18:13:40
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型
2024-12-05 16:02:34
OpenAI给不了的,DeepMind给,Sora联合负责人跳槽后开组新团队
2025-01-07 13:03:56
DeepMind开源生物分子预测模型 诺奖成果将掀起AI制药浪潮?
2024-11-12 17:15:54
DeepMind旗下Isomorphic Labs将启动AI设计药物的人体试验
2025-07-07 20:36:13
截胡OpenAI 谷歌24亿美元引进AI编程公司人才和技术
2025-07-14 16:27:39
24小时热文
更多
扫一扫体验小程序