1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

“寒武纪”在AI圈备受关注,由谢赛宁牵头,李飞飞和Yann LeCun支持的这一项目聚焦于让人工智能真正学会感知世界。其核心成果是一款多模态视频大模型Cambrian-S,主打空间感知能力,同时具备通用视频和图像理解能力,在短视频空间推理任务中达到SOTA(当前最佳)。

团队从Cambrian-1开始探索,系统测评了20多种视觉编码器,设计了高效整合视觉特征的空间视觉聚合器(SVA),并构建了700万条高质量训练数据集,推出CV-Bench基准测试以弥补现有评估不足。他们还总结出两阶段训练等提升性能的最佳方案。

然而,团队并未急于扩大规模,而是反思“什么是真正的多模态智能”。他们提出“超感知”概念,强调AI不仅要看图识物,还要理解物体间的关系及动态变化。基于此,团队将重点转向视频领域,开发出视频空间超感知技术,使AI能从连续画面中理解空间关系,例如人与物体的位置变化。

为验证和训练模型,团队设计了VSI-SUPER基准测试,包含长时程空间记忆和持续计数任务,发现主流模型在处理超长视频时表现欠佳。随后,他们创建了VSI-590K数据集,涵盖真实和模拟场景,标注了关键空间信息。最终推出的Cambrian-S模型家族参数规模虽仅0.5B至7B,但针对性极强,通过预测下一帧内容实现高效空间理解,并显著降低GPU内存消耗。

团队成员包括纽约大学博士生Shusheng Yang、香港大学博士后Jihan Yang、本科生黄品志以及Ellis Brown等,均在多模态AI领域有深厚积累。

参考链接:
[1] https://cambrian-mllm.github.io/
[2] https://x.com/sainingxie/status/1986685063367434557

原文链接
本文链接:https://kx.umi6.com/article/29003.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌最强 AI 开放翻译模型:TranslateGemma 登场,手机也能跑
2026-01-16 07:19:49
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
商汤科技与寒武纪达成战略合作
2025-10-15 13:38:53
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
阿里云:采购寒武纪15万片GPU的消息不实,寒武纪股价跳水
2025-09-01 11:16:19
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
OpenAI 重申今夏推出最强模型 GPT-5,具备完整多模态 AI 能力
2025-07-07 21:35:27
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
「阶跃星辰」的一次豪赌
2025-05-21 08:55:53
24小时热文
更多
扫一扫体验小程序