Sapiens 视觉模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta公司于8月24日发布了一款名为Sapiens的AI视觉模型，旨在使人工智能能够分析并理解图片和视频中的人类动作。此模型涵盖了四个核心任务：二维姿势预估、身体部位分割、深度估计和表面法线预测。Sapiens模型采用了视觉转换器架构，共享相同的编码器但具有不同解码器头，以适应各自的任务需求。这些模型参数量从3亿到20亿不等，具备原生1K高分辨率推理能力，并易于调整以适应特定任务，仅需在超过3亿张野生人类图像上进行预训练。即使在数据标注稀少或完全使用合成数据的情况下，Sapiens模型仍展现出出色的泛化能力。此技术有望推动虚拟试穿、医学影像、增强现实及自动驾驶等领域的发展。

原文链接