当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习( 三 )


文章图片

文章图片
我们发现 , 在这些环境中 , VAL在离线训练后始终显示出有效的零样本泛化 , 随后通过其可供性导向的微调方案快速改进 。与此同时 , 先前的自监督方法在这些新环境中几乎没有改善 。这些令人兴奋的结果表明 , 像VAL这样的方法具有使机器人成功操纵的潜力 , 远远超出它们现在习惯的有限的出厂设置 。
我们的2,500个高质量机器人交互轨迹数据集 , 涵盖20个抽屉把手 , 20个锅把手 , 60个玩具和60个干扰物 , 现已在我们的网站上公开发布 。
【当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习】5
模拟评估与代码
为了进一步分析 , 我们在具有视觉和动态变化的程序生成的多任务环境中运行 VAL 。场景中的对象以及它们的颜色和位置都是随机的 。媒介可以用把手打开抽屉、抓取物体并移动它们、按按钮打开隔间等等 。
给定机器人一个包含各种环境的先验数据集 , 并根据其在以下测试环境中的微调能力进行评估 。
同样 , 给定一个单一的非策略数据集 , 我们的方法可以快速学习高级操作技能 , 包括抓取物体、打开抽屉、移动物体 , 以及对各种新对象使用工具 。
环境和算法代码均已公开 , 请查阅我我们的代码库 。
当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习
文章图片

文章图片
6
未来的工作
就像计算机视觉和自然语言处理等领域的深度学习是由大型数据集和泛化驱动的一样 , 机器人可能需要从类似规模的数据中学习 。正因为如此 , 离线强化学习的改进对于使机器人能够利用大型先验数据集至关重要 。此外 , 这些离线策略要么需要快速的非自主微调 , 要么需要完全自主的微调 , 以便在现实世界中部署是可行的 。最后 , 一旦机器人独立运行 , 我们就能获得源源不断的新数据 , 这就强调了终身学习算法的重要性和价值 。
来源:雷锋网