MSRA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

视频上下文学习！大模型学会“照猫画虎”生成，结合模拟器还能精准控制真实环境交互，来自MSRA

大模型新突破！来自微软亚洲研究院（MSRA）的研究团队开发出Video In-Context Learning（Vid-ICL），一种视频上下文学习方法，使模型能模仿示例生成并精准控制真实环境交互。Vid-ICL通过示例视频指导模型在新场景中生成，如物体移动、抓取和操作，提升生成视频的多样性和与环境的交互精度。该技术不仅扩展了语言和图像的交互界面，还能结合模拟器实现与现实世界的互动，接近《铁甲钢拳》般的智能。研究已发表在arXiv：2407.0735，展示了模型在保持连贯性与语义一致性方面的优秀性能。

原文链接