标题:“通用大脑”来了!MIT何恺明用大模型思维玩出机器人预训练新花样
在机器人领域,“通用智能”的探索正在火热进行。MIT的何恺明和Lirui Wang等人最近在“通用数据”上取得进展,使机器人离“通用大脑”的目标更近一步。
以往,训练机器人需要针对每种任务和环境单独采集数据,导致数据难以通用,训练中存在大量重复劳动。MIT这支团队另辟蹊径,试图让现有数据实现“通用”。
他们提出了名为“异构预训练Transformers”(HPT)的新架构,将不同来源的数据对齐为共享的“语言”,让生成式AI模型能够理解这些数据。HPT不仅能处理视觉传感器数据,还能处理机械臂位置编码器的原始信号,从而实现数据的通用化。
HPT的优势在于通用性高、高效且低成本。所需任务专用数据量较少,HPT在模拟和实际测试中表现优异,性能比传统训练方式提升了20%以上。团队还建立了一个庞大的数据集,包括52个数据集和20万条机器人轨迹,涵盖人类演示视频和模拟数据。
HPT借鉴了GPT-4等大语言模型的思路,采用“大规模预训练+少量微调”的模式。在预训练阶段,只调整Trunk参数,而在微调阶段根据具体任务调整Stem和Head部分。此外,HPT还支持处理传感器采集的原始信号,扩大了数据使用范围。
研究团队将视觉和本体感知信号作为等重要数据源进行“通用”处理,使机器人能以“通用智能”的方式理解任务。例如,在清扫任务中,微调的HPT模型任务成功率远高于只依赖视觉模型的VC-1。
HPT架构分为Stem、Trunk和Head三部分,分别对应数据输入层、共享中间层和任务输出层。Stem将传感器和视觉数据转换为标准化的令牌序列,Trunk将这些令牌转化为通用的潜在表示,Head则将潜在表示转化为具体动作指令。
通过这种方法,研究团队希望最终实现“通用机器人大脑”,让机器人训练变得像下载APP一样简单。
.png)

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36