标题:北大卢宗青:现阶段世界模型和VLA都不触及本质|具身先锋十人谈
正文:
一名具身大脑的创业者,卢宗青拥有耀眼履历:他是紧随DeepMind之后的中国新生代强化学习研究者,北京大学计算机学院长聘副教授,曾负责智源研究院多模态交互研究中心,主持首个国家自然科学基金委原创探索计划通用智能体项目,还多次担任NeurIPS、ICLR、ICML等顶级会议领域主席。
2023年,他带领团队尝试用多模态模型研发通用Agent,使智能体能在《荒野大镖客2》和办公场景中完成任务,相关论文今年被ICML 2025录用。但他坦言对这项研究不满意,因其泛化性不足。
完成上述研究后,卢宗青意识到当前多模态模型缺乏与世界交互能力。因模型缺失物理交互数据,所谓的泛化能力本质上是“抽象”的,无法理解动作与世界关系,更无法预测世界。这促使他决定开发通用具身人工智能模型。
卢宗青微信头像充满个性:戴墨镜的络腮胡青年,白色T恤印着墨色苹果。初见他时,你会觉得他是温和学者;聊到技术愿景时,他又展现出桀骜态度。
在对谈中,他强调自己与其他人的出发点不同。他人追求落地应用,他则致力于寻找更统一、更本质的解法——一个适用于通用具身智能的通用能力基座。他多次提及“VLA没错”“遥操作和真机数据有价值”,随即补充“但是”。
他批评某些具身创业公司所说的世界模型是在“搞笑”,仅限建图,最多如自动驾驶导航。他甚至表示,现阶段语言模型无法抵达通用泛化人工智能,只有更多元视觉信息才能通向AGI。
这正是他创立的公司「智在无界」BeingBeyond在做的事,他们通过标注1500万条互联网视频中的人类关节动作,让模型学习人类运动模式。
他坚信互联网视频数据是唯一可扩展之路,尽管这条路艰辛,但别无选择。BeingBeyond的第一代模型以“0”开头命名,拒绝使用“1”,也未透露后续命名规则。
在一次大会上,他显得孤独,因为所有人都在谈论VLA、世界模型、遥操数据。他认为那些“有价值但不本质”的技术在会场中几乎淹没了他的声音。
他提到,中国强化学习起步较晚,原因之一是AlexNet出现后大家都转向CV。他也反思投资人的“非共识”言论,最终投出的仍是共识。
BeingBeyond年仅5个月,能否成为穿越周期的技术领导者尚不可知。但他深知这条路漫长且艰难,即使获得联想之星、星连资本的数千万天使轮融资,资金也并非充裕。
卢宗青创立BeingBeyond后接受的首次专访中,回顾了他的学术历史,探讨了具身智能泛化路线及公司愿景。以下是访谈内容整理:
为何研究强化学习?源于DeepMind在Atari Game上的成果以及强化学习解决NP问题的能力。他特别提到AlphaGo论文,这是决策层突破的里程碑。
如何转向具身智能?在智源研究院设立多模态交互研究中心时,ChatGPT刚推出,团队开始探索强化学习与大模型结合,而非RLHF或推理结合。
他们曾在2023年用GPT-4V操控电脑,还测试了《荒野大镖客2》等游戏,证明多模态模型在语义规划上有优势,但在与环境交互和预测后果上不足。
为何选择互联网视频?他认为大多数团队关注物体运动轨迹,而他们专注于人体关节位置。这种方式更直接,数据量更大,已有1500万条全身运动数据,手部操作数据也在积累。
关于世界模型,他认为现阶段无法实现物理层面的预测,仅限语义层面。真正有用的世界模型应基于动作,而非导航功能。
公司为何叫BeingBeyond?Being代表生成与存在,Beyond寓意超越。第一代模型以Being开头,未来可能以Beyond开头。
公司规模精简,仅有五名全职员工。他强调,即便获得更多资源,也不会急于投入硬件,而是专注模型迭代。预计两三年后可实现规模扩大。
他欣赏乔布斯,认为未来或许能打造自己的机器人,并希望最终实现2C产品。
.png)

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03