2月20日 消息:机器人学习技术能够概括广泛的任务、设置和对象。不幸的是,这些策略需要广泛、多样化的数据集,而在实际的机器人环境中获取这些数据集既困难又昂贵。机器人学习的普遍性需要访问机器人直接环境之外的先验或数据。
数据扩充是增强模型泛化能力的有用工具。但大多数方法在低级视觉空间中运行,以颜色抖动、高斯模糊和裁剪等方式改变数据。然而,它们仍然无法处理图片中显着的语义差异,例如分散注意力的元素、不同的背景或不同对象的外观。
GenAug 是由华盛顿大学和MetaAI开发的语义数据增强框架,它使用预训练的文本到图像生成模型来促进实际机器人中基于模仿的学习。与机器人数据相比,预训练的生成模型可以访问更大、更多样化的数据集。这项研究使用这些生成模型来补充数据,以训练现实世界中的实际机器人。这项研究基于这样一种直觉信念,即尽管场景、背景和项目外观存在差异,但在一个环境中完成任务的方法通常应该可以转移到不同情况下的相同任务。
生成模型可以生成截然不同的视觉情况,具有不同的背景和项目外观,在这些情况下,相同的行为仍然有效。同时,有限的机器人体验提供了所需行为的演示。此外,这些生成模型是根据真实数据训练的,因此生成的场景看起来逼真且多变。通过这样做,可以从有限数量的演示中轻松且经济地生成大量语义,从而使学习代理可以访问比仅在机器人上演示数据更多样化的设置。
GenAug 可以为全新的真实环境生成“增强的”RGBD 图像,展示机器人在现实世界中可能体验到的场景的视觉真实性和复杂性,给定真实机器人系统上提供的图像动作示例数据集。具体来说,对于在桌面上执行操作任务的机器人,GenAug 结合使用语言提示和生成模型来改变项目的纹理和形状,并添加新的分散注意力的元素和与原始场景在物理上保持一致的背景场景。
Meta 的研究论文表明,GenAug 可用于从单一、简单的环境创建10个真实世界的复杂演示。根据研究结果,与传统方法相比,GenAug 可以将机器人训练提高40%,让机器人可以在从未见过的地方和物品上进行训练。
该团队计划将 GenAug 应用于机器人学习的其他领域,例如行为克隆和强化学习,并超越更困难的操作问题。研究人员认为,研究语言和视觉语言模型的混合是否或是否可以提供出色的场景生成器,这将是一种引人入胜的方法。
关键词: