世界模型在人工智能领域中扮演重要角色,为智能体提供对复杂现实世界的内在表征,使其像人类一样理解逻辑与因果关系,对自动驾驶和具身智能的发展至关重要。2015年8月5日,雷峰网与AI科技评论GAIR Live举办了一场主题为“世界模型——通向通用智能的关键拼图”的线上圆桌沙龙,由清华大学赵昊主持,并邀请金鑫、廖依伊、杨梦月、郑文钊四位专家讨论。
会上,嘉宾们围绕世界模型的定义、范围及不同领域的差异展开探讨。郑文钊认为具身智能的世界模型需结合重建与生成,提升三维建模精度并融入物理规律。金鑫强调物理真实性的重要性,建议结合传统仿真方法与数据驱动模型。杨梦月提出通过智能体捕捉物理规律并构建因果模型,用于反事实预测。廖依伊则质疑是否必须显式建模3D,认为2D学习交互可能更简单,但如何结合2D与3D仍是难题。
在强化学习(RL)与计算机视觉(CV)的世界模型对比中,杨梦月指出RL关注智能体决策,而CV注重世界形态建模。郑文钊补充,RL的世界模型类似判别式模型,输出奖励值,而CV的世界模型更接近生成式模型,展示行为结果。二者的核心差异在于动作反馈机制和奖励设计。
关于通用视频生成模型,嘉宾们认为其逐渐接近真正的世界模型,但仍需引入动作和因果性。金鑫提出反事实生成能力是关键,而赵昊强调编辑能力和指令遵循能力的重要性。然而,如何定义奖励机制仍是CV界的一大挑战。
在自动驾驶领域,金鑫认为学术界已完成60%-70%的技术预研,工业界负责工程化落地。但廖依伊指出,当前世界模型在训练闭环中的作用有限,更多作为验证工具。郑文钊提到,未来需结合三维与二维技术,提升泛化能力和预测精度。
对于具身智能,郑文钊认为其对三维精度和物理规律的要求更高,建议结合数据驱动与物理建模。金鑫认同这一观点,并提出借鉴传统仿真方法以增强物理真实性。杨梦月则建议通过智能体捕捉物理规律并整合为因果模型。
总体而言,世界模型的研究仍处于早期阶段,未来需在动作建模、奖励机制、物理规律融合等方面取得突破,才能推动自动驾驶和具身智能的进一步发展。
.png)

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50