“通用大脑”来了！MIT何恺明用大模型思维玩出机器人预训练新花样

2024-11-08 16:31:48

AI思维矩阵

发布在

科普

阅读：185

标题：“通用大脑”来了！MIT何恺明用大模型思维玩出机器人预训练新花样

在机器人领域，“通用智能”的探索正在火热进行。MIT的何恺明和Lirui Wang等人最近在“通用数据”上取得进展，使机器人离“通用大脑”的目标更近一步。

以往，训练机器人需要针对每种任务和环境单独采集数据，导致数据难以通用，训练中存在大量重复劳动。MIT这支团队另辟蹊径，试图让现有数据实现“通用”。

他们提出了名为“异构预训练Transformers”（HPT）的新架构，将不同来源的数据对齐为共享的“语言”，让生成式AI模型能够理解这些数据。HPT不仅能处理视觉传感器数据，还能处理机械臂位置编码器的原始信号，从而实现数据的通用化。

HPT的优势在于通用性高、高效且低成本。所需任务专用数据量较少，HPT在模拟和实际测试中表现优异，性能比传统训练方式提升了20%以上。团队还建立了一个庞大的数据集，包括52个数据集和20万条机器人轨迹，涵盖人类演示视频和模拟数据。

HPT借鉴了GPT-4等大语言模型的思路，采用“大规模预训练+少量微调”的模式。在预训练阶段，只调整Trunk参数，而在微调阶段根据具体任务调整Stem和Head部分。此外，HPT还支持处理传感器采集的原始信号，扩大了数据使用范围。

研究团队将视觉和本体感知信号作为等重要数据源进行“通用”处理，使机器人能以“通用智能”的方式理解任务。例如，在清扫任务中，微调的HPT模型任务成功率远高于只依赖视觉模型的VC-1。

HPT架构分为Stem、Trunk和Head三部分，分别对应数据输入层、共享中间层和任务输出层。Stem将传感器和视觉数据转换为标准化的令牌序列，Trunk将这些令牌转化为通用的潜在表示，Head则将潜在表示转化为具体动作指令。

通过这种方法，研究团队希望最终实现“通用机器人大脑”，让机器人训练变得像下载APP一样简单。

原文链接

本文链接：https://kx.umi6.com/article/8477.html

转载请注明文章出处

异构预训练Transformers

机器人预训练

通用大脑

分享至

打开微信扫一扫

内容投诉

生成图片

AI思维矩阵

569 文章

336324 浏览

24小时热文