1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

DeepMind率先提出CoF:视频模型的“思维链”

DeepMind最近提出了一种新概念——帧链(CoF,chain-of-frames),类比语言模型中的“思维链”(CoT)。这一概念首次出现在其最新论文《Veo 3》中。研究发现,逐帧生成视频的过程类似于语言模型的链式推理,而“帧链”则让视频模型能够在时间和空间上进行推理。

通过实验,团队发现以Veo 3为代表的视频模型正在快速迈向通用视觉理解能力。它能够以零样本的方式完成从“看”到“想”的全链条视觉任务,展现出成为机器视觉“通用基础模型”的潜力。用一句话总结:“Veo 3是视觉推理领域的GPT-3时刻。”

为了验证视频模型是否可以像语言模型一样无需专门训练就能完成多种任务,DeepMind采用了简单直接的方法:仅提供初始图像和文字指令,让模型生成8秒720p视频。结果显示,Veo 3具备四大能力:感知、建模、操控和跨时空推理。例如,它可以完成经典视觉任务(如模糊图变清晰)、理解物理规则(如石头会沉)、改变视觉世界(如给小鸟加围巾)以及解决复杂的迷宫问题。

团队的核心结论包括:1)Veo 3在62项定性任务和7项定量任务中表现出色,能处理许多未训练过的任务;2)它展现了类似“帧链”的早期视觉推理能力;3)相比前代Veo 2,Veo 3性能显著提升,表明视频模型正迅速进化。

此外,DeepMind预测,随着成本下降和技术进步,未来通用视频模型将取代专用模型。虽然目前Veo 3在特定任务上仍落后于专用模型,但其快速进步让人联想到早期LLM的发展轨迹。通过多尝试策略和优化技术,Veo 3的性能还有巨大提升空间。

总之,DeepMind对通用视频模型充满信心,而CoF的提出有望为视频模型开辟全新方向。

论文链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

原文链接
本文链接:https://kx.umi6.com/article/26004.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌DeepMind用AI探测引力波,登上Science了
2025-09-13 14:28:42
DeepMind打造AI调解员,“劝架”水平远超人类
2024-10-19 07:11:54
DeepMind 开源大模型 GenCast 登 Nature:8 分钟预测 15 日天气
2024-12-05 14:05:26
AI 革新医疗:谷歌 DeepMind 首席执行官预测,十年内帮助消灭所有疾病
2025-04-23 14:57:44
AI 大模型会不会讲笑话?谷歌 DeepMind 团队实验结果:会讲,但笑点不多
2024-06-22 11:47:28
DeepMind英国员工举旗反抗,硬刚谷歌交易AI军工合同
2025-04-26 22:56:53
谷歌内部AI人才大迁移,统一纳入DeepMind旗下,归哈萨比斯领导
2025-01-10 16:20:42
谷歌增设首席人工智能架构师
2025-06-12 14:37:07
诺贝尔奖是 AI 发展的里程碑时刻!DeepMind 联创 Hassabis 获奖后最新专访
2024-10-26 15:28:40
DeepMind掌门人:AI将颠覆制药业,新药研发不再是马拉松
2025-09-12 21:21:22
Nature重磅:8分钟预测15天全球天气,DeepMind AI击败全球最先进天气预报系统
2024-12-05 10:55:56
微软 AI 首席执行官集结 DeepMind 旧部共筑 AI 新未来
2025-02-06 14:33:11
DeepMind 资深科学家从谷歌离职创办机器人初创公司,获英伟达投资
2025-03-20 16:41:21
24小时热文
更多
扫一扫体验小程序