谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
字节跳动Seed团队推出全新研究成果——Depth Anything 3(简称DA3),仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成3D重建,获得谢赛宁的高度评价。
DA3的核心能力强大且架构简洁。它能精准计算物体深度、还原相机位置,拼接完整3D场景,并生成未拍摄的新视角图像。在团队全新设计的视觉几何基准测试中,DA3表现出色:相机定位精度提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2。
以往的3D视觉模型通常“术业有专攻”,例如单图深度估计和多视角重建需要不同模型,甚至连相机位置预测也需要单独模块,开发成本高且数据依赖严重。而DA3通过极简设计解决了这些问题。
其核心秘诀在于两点:一是使用普通的视觉Transformer作为基础;二是专注于预测深度和光线两个关键目标。DA3的任务流程分为四大环节:输入处理、Single Transformer核心计算、Dual DPRT Head任务输出以及相机姿态提取。其中,Transformer基于预训练的DINO模型,结合单视角和跨视角自注意力机制,灵活处理多种输入形式。
在训练策略上,DA3采用师生蒸馏方法,利用高性能教师模型生成伪标签指导学生模型学习,降低对高精度标注数据的依赖。此外,字节团队搭建了全新的视觉几何基准,整合5个涵盖室内外和物体级的数据集,全面评估模型性能。
评测结果显示,DA3在多项任务中表现优异:不仅能精准估计视频帧的相机参数和运动轨迹,还能生成高质量3D点云,并通过视角补全生成未拍摄角度的图像,在虚拟漫游和数字孪生等领域潜力巨大。
项目带队人康炳易是字节跳动95后研究科学家,专注于计算机视觉与多模态模型。他曾就读于浙大、加州伯克利和新国立(师从冯佳时),并在Facebook AI Research实习期间与谢赛宁等人合作。康炳易领导开发的Depth Anything系列此前还被苹果CoreML库收录。
论文地址:https://arxiv.org/abs/2511.10647
参考链接:
[1] https://x.com/bingyikang/status/1989358267668336841
[2] https://x.com/sainingxie/status/1989423686882136498
-
2025-11-18 16:28:47 -
2025-11-18 16:27:43 -
2025-11-18 16:26:35