擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了

本文转自:澎湃新闻
你能想象让机器人揉面团 , 擀面皮 , 包饺子吗?对机器人来说 , 操纵衣物、面团等柔软无坚固形状的可形变材料一直是个棘手的问题 。面团的形状可以以多种方式变化 , 而这些变化很难用方程式表示 。
此外 , 从面团中创建新形状需要多个步骤并使用不同的工具 。对于机器人来说 , 学习具有长步骤序列的操作任务尤其困难 , 因为学习通常是通过反复试验完成的 , 其中有许多可能的选择 。
擀面皮包饺子,MIT、CMU等的研究员让机器人自己学会了
文章图片

文章图片

当地时间3月30日 , 麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员为这种任务提出了一种更好的方法 。他们创造了一种“两阶段学习框架” , 名为“Teacher”(老师)的算法解决机器人要完成任务所必需的每个步骤 , 然后它训练“Student”(学生)机器学习模型去学习关于何时及如何执行任务所需的每项技能的抽象概念 , 比如用擀面杖 。有了这些知识 , 系统就会推理出如何执行技能来完成整个任务 。
研究人员认为 , 这种他们称之为DiffSkill的方法可以在模拟中执行复杂的操作任务 , 例如切和揉面团 , 或从砧板周围收集面团 , 同时优于其他机器学习方法 。
除了制作披萨、饺子外 , 这种方法还可以应用于机器人需要操纵可形变物体的其他环境中 , 如为老年人或运动障碍者喂食、洗澡或穿衣的护理机器人 。
“这种方法更接近我们人类计划行动的方式 。当一个人执行一项长期任务时 , 我们并没有写下所有的细节 。我们有一个更高级别的计划者 , 它大致告诉我们在此过程中需要实现哪些阶段以及一些中间目标 , 然后我们执行它们 , ”论文作者之一 , MIT计算机科学与人工智能专业的研究生李云珠说道 。
分开来看具体的工作原理 。DiffSkill框架中的“Teacher”是一种轨迹优化算法 , 可以解决物体初始状态和目标位置很接近的短视界(short-horizon)任务 。轨迹优化器在模拟现实世界的物理模拟器中工作(称为可微物理模拟器 , 它将“Diff”放入“DiffSkill”中) 。“Teacher”算法使用模拟器中的信息来学习面团在每个阶段必然如何移动 , 一次一个 , 然后输出这些轨迹 。
然后“Student”神经网络学会模仿老师的动作 。作为输入 , 它使用两个摄像头图像 , 一个显示当前状态的面团 , 另一个显示任务结束时的面团 。神经网络生成一个高级计划 , 以确定如何将不同的技能联系起来以达到目标 。然后 , 它为每个技能生成特定的、短视界的轨迹 , 并将命令直接发送到工具 。
研究人员使用这种技术对三种不同的模拟面团操作任务进行了实验 。在一项任务中 , 机器人使用抹刀将面团举到砧板上 , 然后使用擀面杖将其压平 。在另一个例子中 , 机器人使用抓手从柜台上收集面团 , 将其放在抹刀上 , 然后将其转移到砧板上 。在第三个任务中 , 机器人用刀将一堆面团切成两半 , 然后使用夹具将每一块面团运送到不同的位置 。
“DiffSkill能够胜过依赖强化学习的流行技术 , 在强化学习中 , 机器人通过反复试验来学习任务 。事实上 , DiffSkill是唯一能够成功完成所有三个面团操作任务的方法 。有趣的是 , 我们发现‘Student’神经网络甚至能够胜过‘Teacher’算法 , ”卡内基梅隆大学 (CMU) 研究生林兴宇说道 。
林兴宇认为 , 这个框架为机器人获得新技能提供了一种新颖的方式 , 可以将这些技能链接起来 , 以解决更复杂的任务 。这些任务超出了以前的机器人系统的能力 。