1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

字节跳动Seed团队推出全新研究成果——Depth Anything 3(简称DA3),仅用一个Transformer模型即可实现从单张图片、多视角照片甚至视频中完成3D重建,获得谢赛宁的高度评价。

DA3的核心能力强大且架构简洁。它能精准计算物体深度、还原相机位置,拼接完整3D场景,并生成未拍摄的新视角图像。在团队全新设计的视觉几何基准测试中,DA3表现出色:相机定位精度提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2。

以往的3D视觉模型通常“术业有专攻”,例如单图深度估计和多视角重建需要不同模型,甚至连相机位置预测也需要单独模块,开发成本高且数据依赖严重。而DA3通过极简设计解决了这些问题。

其核心秘诀在于两点:一是使用普通的视觉Transformer作为基础;二是专注于预测深度和光线两个关键目标。DA3的任务流程分为四大环节:输入处理、Single Transformer核心计算、Dual DPRT Head任务输出以及相机姿态提取。其中,Transformer基于预训练的DINO模型,结合单视角和跨视角自注意力机制,灵活处理多种输入形式。

在训练策略上,DA3采用师生蒸馏方法,利用高性能教师模型生成伪标签指导学生模型学习,降低对高精度标注数据的依赖。此外,字节团队搭建了全新的视觉几何基准,整合5个涵盖室内外和物体级的数据集,全面评估模型性能。

评测结果显示,DA3在多项任务中表现优异:不仅能精准估计视频帧的相机参数和运动轨迹,还能生成高质量3D点云,并通过视角补全生成未拍摄角度的图像,在虚拟漫游和数字孪生等领域潜力巨大。

项目带队人康炳易是字节跳动95后研究科学家,专注于计算机视觉与多模态模型。他曾就读于浙大、加州伯克利和新国立(师从冯佳时),并在Facebook AI Research实习期间与谢赛宁等人合作。康炳易领导开发的Depth Anything系列此前还被苹果CoreML库收录。

论文地址:https://arxiv.org/abs/2511.10647
参考链接:
[1] https://x.com/bingyikang/status/1989358267668336841
[2] https://x.com/sainingxie/status/1989423686882136498

原文链接
本文链接:https://kx.umi6.com/article/28610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
2025-03-14 16:15:26
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了
2024-12-04 16:39:33
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
2026-01-20 09:46:08
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
2025-01-14 15:12:54
那个要挑战GPT的00后清华男孩
2024-09-20 11:49:07
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
2024-06-21 15:42:20
左手Transformer,右手世界模型,我们距离AGI还有多远?
2024-11-21 18:39:56
彩云小梦V3.5上线!首个基于DCFormer架构通用大模型发布
2024-11-13 18:44:50
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
2025-11-20 16:32:05
全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,英伟达 H100 的 20 倍
2024-06-26 12:30:19
24小时热文
更多
扫一扫体验小程序