谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

2025-11-18 13:17:53

电子诗篇

发布在

科普

阅读：152

谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

闻乐发自凹非寺
量子位 | 公众号 QbitAI

字节跳动Seed团队推出全新研究成果——Depth Anything 3（简称DA3），仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成3D重建，获得谢赛宁的高度评价。

DA3的核心能力强大且架构简洁。它能精准计算物体深度、还原相机位置，拼接完整3D场景，并生成未拍摄的新视角图像。在团队全新设计的视觉几何基准测试中，DA3表现出色：相机定位精度提升35.7%，几何重建准确率提高23.6%，单目深度估计超越前代DA2。

以往的3D视觉模型通常“术业有专攻”，例如单图深度估计和多视角重建需要不同模型，甚至连相机位置预测也需要单独模块，开发成本高且数据依赖严重。而DA3通过极简设计解决了这些问题。

其核心秘诀在于两点：一是使用普通的视觉Transformer作为基础；二是专注于预测深度和光线两个关键目标。DA3的任务流程分为四大环节：输入处理、Single Transformer核心计算、Dual DPRT Head任务输出以及相机姿态提取。其中，Transformer基于预训练的DINO模型，结合单视角和跨视角自注意力机制，灵活处理多种输入形式。

在训练策略上，DA3采用师生蒸馏方法，利用高性能教师模型生成伪标签指导学生模型学习，降低对高精度标注数据的依赖。此外，字节团队搭建了全新的视觉几何基准，整合5个涵盖室内外和物体级的数据集，全面评估模型性能。

评测结果显示，DA3在多项任务中表现优异：不仅能精准估计视频帧的相机参数和运动轨迹，还能生成高质量3D点云，并通过视角补全生成未拍摄角度的图像，在虚拟漫游和数字孪生等领域潜力巨大。

项目带队人康炳易是字节跳动95后研究科学家，专注于计算机视觉与多模态模型。他曾就读于浙大、加州伯克利和新国立（师从冯佳时），并在Facebook AI Research实习期间与谢赛宁等人合作。康炳易领导开发的Depth Anything系列此前还被苹果CoreML库收录。

论文地址：https://arxiv.org/abs/2511.10647
参考链接：
[1] https://x.com/bingyikang/status/1989358267668336841
[2] https://x.com/sainingxie/status/1989423686882136498

原文链接

本文链接：https://kx.umi6.com/article/28610.html

转载请注明文章出处

3D重建