谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
“寒武纪”在AI圈备受关注,由谢赛宁牵头,李飞飞和Yann LeCun支持的这一项目聚焦于让人工智能真正学会感知世界。其核心成果是一款多模态视频大模型Cambrian-S,主打空间感知能力,同时具备通用视频和图像理解能力,在短视频空间推理任务中达到SOTA(当前最佳)。
团队从Cambrian-1开始探索,系统测评了20多种视觉编码器,设计了高效整合视觉特征的空间视觉聚合器(SVA),并构建了700万条高质量训练数据集,推出CV-Bench基准测试以弥补现有评估不足。他们还总结出两阶段训练等提升性能的最佳方案。
然而,团队并未急于扩大规模,而是反思“什么是真正的多模态智能”。他们提出“超感知”概念,强调AI不仅要看图识物,还要理解物体间的关系及动态变化。基于此,团队将重点转向视频领域,开发出视频空间超感知技术,使AI能从连续画面中理解空间关系,例如人与物体的位置变化。
为验证和训练模型,团队设计了VSI-SUPER基准测试,包含长时程空间记忆和持续计数任务,发现主流模型在处理超长视频时表现欠佳。随后,他们创建了VSI-590K数据集,涵盖真实和模拟场景,标注了关键空间信息。最终推出的Cambrian-S模型家族参数规模虽仅0.5B至7B,但针对性极强,通过预测下一帧内容实现高效空间理解,并显著降低GPU内存消耗。
团队成员包括纽约大学博士生Shusheng Yang、香港大学博士后Jihan Yang、本科生黄品志以及Ellis Brown等,均在多模态AI领域有深厚积累。
参考链接:
[1] https://cambrian-mllm.github.io/
[2] https://x.com/sainingxie/status/1986685063367434557
-
2025-12-07 22:52:28 -
2025-12-07 22:51:22 -
2025-12-07 21:52:07