图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
一张照片就能生成可直接用于仿真的3D资产。南洋理工大学与上海人工智能实验室联合提出PhysX-Anything,这是首个面向仿真、具备物理属性的3D生成框架:仅需单张图像,即可生成高质量、包含几何结构、关节运动和物理参数的sim-ready(仿真就绪)3D资产。
从「静态模型」到「物理仿真」
在机器人和具身智能领域,对能在物理引擎中运行的高质量3D资产需求日益增长。然而,现有方法多关注几何与外观,缺乏密度、绝对尺度、关节约束等关键物理信息,难以直接用于仿真与控制。PhysX-Anything解决了这一问题,通过一张图像生成可在主流物理引擎中即插即用的3D资产,为机器人与具身智能研究带来新方向。
如何实现3D物理重建?
PhysX-Anything采用「由粗到细」的生成框架。给定一张真实场景图像,系统通过多轮对话生成整体物理描述与部件几何信息,最终输出六种常用格式的仿真3D资产。团队提出一种基于体素的新型3D表征方式,在保留几何结构的同时显著缩短token序列,无需额外token。该方法以32³体素网格建模粗略几何,再通过下游解码器细化得到高保真形状。
此外,团队设计了一个可控的flow transformer模块,将粗体素表示作为扩散模型引导信号,生成细粒度几何。结合全局结构信息,最终生成用于仿真的URDF、XML及部件级网格。
效果如何?多项实测验证
在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理指标上均优于现有方法,如URDFormer、Articulate-Anything和PhysXGen。其泛化能力尤为突出,能生成比检索式方法更合理、可信的物理属性。
真实世界测试进一步证明了其性能。团队在常见日常物体类别图像上测试,结果表明PhysX-Anything在几何与关节运动质量上显著领先。人类志愿者评分也显示其生成结果更受认可。
「开箱即用」赋能具身智能
生成的sim-ready 3D资产可直接导入MuJoCo风格模拟器,用于机器人策略学习。实验表明,这些资产在物理行为与几何结构上高度可信,为下游机器人与具身智能应用提供了强大支持。
推动3D重建从「形似」到「神似」
PhysX-Anything通过统一VLM管线与定制3D表征,实现超过193倍的token压缩,显著提升效率与可扩展性。团队构建的PhysX-Mobility数据集覆盖47个真实类别,拓展了物理3D资产多样性。该框架推动了从「视觉建模」到「物理建模」的范式转变。
论文链接:https://arxiv.org/abs/2511.13648
项目主页:https://physx-anything.github.io/
GitHub代码:https://github.com/ziangcao0312/PhysX-Anything
-
2025-12-09 06:16:49 -
2025-12-09 04:10:33 -
2025-12-08 23:53:52