标题:对话原力灵机周而进:2.4B模型够用,具身原生是关键
正文:
一个专注于具身智能的公司推出了仅2.4B参数的模型DM0,远低于行业标杆如π 0(33亿参数)和π 0.6(50亿参数)。这家公司认为,2.4B足够支撑实时处理三视角728×728画面,推理延迟仅60毫秒,并通过强化学习在真机上不断进化。
DM0被称为“首个具身原生大模型”,由原力灵机推出,背后操盘手是合伙人周而进。他在AI领域已深耕13年,早在2013年就以实习生身份拿下ICCV自然环境人脸关键点定位比赛冠军。如今,他与昔日旷视同事范浩强、汪天才共同创业,目标是打造具身智能。
主流具身模型多采用VLM+Action Head方案,即大模型负责识别逻辑,动作头负责执行。但周而进认为这是“外挂式”方法,原力灵机追求的是从数据采集到控制结构都源自物理世界的“具身原生”路线。DM0通过多源、多任务训练,将感知、推理、控制整合为闭环,结合空间推理思维链(Spatial CoT),实现具身智能的内生化。
DM0的训练分为三个阶段:
1. VLM Train:从零构建具身原生模型,融合互联网、智驾和具身多传感数据,理解物理环境。
2. VLA Pre-Train:通过多任务、多机型训练和空间推理思维链,让具身能力涌现。
3. VLA Post-Train:针对特定场景适配优化。
此外,团队还发布了开源框架Dexbotic 2.0和量产工作流DFOL,目标是实现操作与导航、模仿学习与强化学习的统一。
周而进强调“全身全时全域”数据采集的重要性,覆盖底盘移动、躯干协调及传感器反馈,确保模型能应对物理世界的无限长尾问题。他认为,精细动作的前提是精细感知,因此高分辨率输入至关重要。
物流场景被选为落地起点,因其标准化程度高、可复制性强,且能快速形成数据闭环。未来,团队计划逐步拓展至ToB场景,最终迈向家庭等ToC领域。
关于世界模型,周而进认为其核心在于预测动作结果,而非直接输出策略。它帮助模型模拟物理反馈,提升泛化能力。
对于终极目标,周而进提出“机器人拥有社会身份”的愿景,例如具备独立支付能力。这需要解决信用体系、责任追溯等问题,使机器人成为社会化接口。
原力灵机团队分工明确:唐文斌负责商业与资源整合,周而进与汪天才主攻基模训练,范浩强专注软硬件协同。他们相信,具身智能的未来在于场景驱动与技术闭环。
-
2026-02-15 20:41:51 -
2026-02-15 20:40:46 -
2026-02-15 20:39:36