1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

字节跳动Seed团队推出全新研究成果——Depth Anything 3(简称DA3),仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成3D重建,获得谢赛宁的高度评价。

DA3的核心能力强大且架构简洁。它能精准计算物体深度、还原相机位置,拼接完整3D场景,并生成未拍摄的新视角图像。在团队全新设计的视觉几何基准测试中,DA3表现出色:相机定位精度提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2。

以往的3D视觉模型通常“术业有专攻”,例如单图深度估计和多视角重建需要不同模型,甚至连相机位置预测也需要单独模块,开发成本高且数据依赖严重。而DA3通过极简设计解决了这些问题。

其核心秘诀在于两点:一是使用普通的视觉Transformer作为基础;二是专注于预测深度和光线两个关键目标。DA3的任务流程分为四大环节:输入处理、Single Transformer核心计算、Dual DPRT Head任务输出以及相机姿态提取。其中,Transformer基于预训练的DINO模型,结合单视角和跨视角自注意力机制,灵活处理多种输入形式。

在训练策略上,DA3采用师生蒸馏方法,利用高性能教师模型生成伪标签指导学生模型学习,降低对高精度标注数据的依赖。此外,字节团队搭建了全新的视觉几何基准,整合5个涵盖室内外和物体级的数据集,全面评估模型性能。

评测结果显示,DA3在多项任务中表现优异:不仅能精准估计视频帧的相机参数和运动轨迹,还能生成高质量3D点云,并通过视角补全生成未拍摄角度的图像,在虚拟漫游和数字孪生等领域潜力巨大。

项目带队人康炳易是字节跳动95后研究科学家,专注于计算机视觉与多模态模型。他曾就读于浙大、加州伯克利和新国立(师从冯佳时),并在Facebook AI Research实习期间与谢赛宁等人合作。康炳易领导开发的Depth Anything系列此前还被苹果CoreML库收录。

论文地址:https://arxiv.org/abs/2511.10647
参考链接:
[1] https://x.com/bingyikang/status/1989358267668336841
[2] https://x.com/sainingxie/status/1989423686882136498

原文链接
本文链接:https://kx.umi6.com/article/28610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
2024-11-05 14:35:47
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
苹果AI选Mamba:Agent任务比Transformer更好
2025-10-21 14:27:27
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
2026-01-20 09:46:08
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
扩散模型还原被遮挡物体,几张稀疏照片也能”脑补”完整重建交互式3D场景|CVPR’25
2025-04-23 13:56:19
Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
2024-08-14 10:29:52
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
2024-09-17 14:52:32
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
2025-07-17 18:26:53
24小时热文
更多
扫一扫体验小程序