1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

字节跳动Seed团队推出全新研究成果——Depth Anything 3(简称DA3),仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成3D重建,获得谢赛宁的高度评价。

DA3的核心能力强大且架构简洁。它能精准计算物体深度、还原相机位置,拼接完整3D场景,并生成未拍摄的新视角图像。在团队全新设计的视觉几何基准测试中,DA3表现出色:相机定位精度提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2。

以往的3D视觉模型通常“术业有专攻”,例如单图深度估计和多视角重建需要不同模型,甚至连相机位置预测也需要单独模块,开发成本高且数据依赖严重。而DA3通过极简设计解决了这些问题。

其核心秘诀在于两点:一是使用普通的视觉Transformer作为基础;二是专注于预测深度和光线两个关键目标。DA3的任务流程分为四大环节:输入处理、Single Transformer核心计算、Dual DPRT Head任务输出以及相机姿态提取。其中,Transformer基于预训练的DINO模型,结合单视角和跨视角自注意力机制,灵活处理多种输入形式。

在训练策略上,DA3采用师生蒸馏方法,利用高性能教师模型生成伪标签指导学生模型学习,降低对高精度标注数据的依赖。此外,字节团队搭建了全新的视觉几何基准,整合5个涵盖室内外和物体级的数据集,全面评估模型性能。

评测结果显示,DA3在多项任务中表现优异:不仅能精准估计视频帧的相机参数和运动轨迹,还能生成高质量3D点云,并通过视角补全生成未拍摄角度的图像,在虚拟漫游和数字孪生等领域潜力巨大。

项目带队人康炳易是字节跳动95后研究科学家,专注于计算机视觉与多模态模型。他曾就读于浙大、加州伯克利和新国立(师从冯佳时),并在Facebook AI Research实习期间与谢赛宁等人合作。康炳易领导开发的Depth Anything系列此前还被苹果CoreML库收录。

论文地址:https://arxiv.org/abs/2511.10647
参考链接:
[1] https://x.com/bingyikang/status/1989358267668336841
[2] https://x.com/sainingxie/status/1989423686882136498

原文链接
本文链接:https://kx.umi6.com/article/28610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
2025-03-24 12:58:55
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
2025-11-18 13:17:53
每帧都是AI实时生成的,全球首款AI游戏问世了!
2024-11-05 15:45:38
扩散模型还原被遮挡物体,几张稀疏照片也能”脑补”完整重建交互式3D场景|CVPR’25
2025-04-23 13:56:19
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
LLM 的“母语”是什么?
2024-06-03 07:50:10
一个「always」站在大模型技术C位的传奇男子
2025-05-10 12:04:35
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
Google AI编年史
2025-11-04 16:20:36
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
2024-11-05 14:35:47
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
2025-07-19 11:51:22
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
2024-09-17 14:52:32
24小时热文
更多
扫一扫体验小程序