继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?( 二 )


继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
带有预测能力的世界模型可以有效地提取空域与时域特征 , 再将这些特征应用于控制模型 , 然后训练一个最小的控制模型来完成连续域控制任务 , 即赛车 。
2、Pathdreamer的诞生
受到 Jürgen Schmidhuber 等人的工作启发 , 谷歌团队开始将世界模型的研究思想应用在同样是智能体控制的机器人导航任务中 , 使用世界模型来获取周围环境的信息 , 使智能体能够在特定的环境中预测自己的行为后果 。
图 / 世界模型的工作原理
在了解Pathdreamer之前 , 我们不妨设想一下:
如果你出去旅游 , 住进一间完全陌生的民宿 , 你会如何判断房子的方位?
一般来说 , 当我们推开大门 , 我们会知道首先映入眼前的是客厅 , 然后顺着客厅猜测卧室、厨房、阳台等等空间的方位 。
继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
图 / 人的导航习惯是依据眼前所见之物来判断
那么 , 机器人呢?如果一个机器人来到一个完全陌生的房子里 , 它会如何导航?
人在判断方位时 , 善于利用视觉与常识 , 通过眼前的事物推理出空间的布局 , 从而找到自己的目标 。但是 , 对于机器人来说 , 在一个新的建筑里 , 要利用语义线索与事物的规律分布来定位 , 并不是一件容易的事 。
此前 , 针对上述问题 , Facebook AI 提出了一个算法 , 叫“DD-PPO” , 主要是:通过无模型强化学习(model-free reinforcement learning) , 以端到端的方式让智能体学习辨认一个空间内的线索、并利用这些线索来完成导航的任务 。
但是 , 这种方式的学习成本高 , 难以检验 , 而且泛化难 , 另一个智能体必须从头开始学习同样的方式、才能掌握依据理解线索来定位的能力 。
相比之下 , Pathdreamer 模型可以从单一视角合成一幅沉浸式场景图 , 预测当智能体移动到一个新的视点、或是移动到一个完全看不见的区域(比如角落)时 , 智能体可能会看到什么 。
这不仅可以用于视频编辑、使照片看起来栩栩如生 , 最重要的是 , 它还可以将人类环境的知识告诉机器智能体 , 帮助机器人在现实世界中定位导航 。
比如 , 如果我们给机器人一个任务 , 让它在一栋陌生的建筑里寻找某个房间或物体 , 那么它就可以先在世界模型中进行模拟 , 学习识别物体在空间中可能的位置 , 减少实际投入后的导航错误 。
除了模拟导航以外 , 机器人在Pathdream等世界模型中训练 , 还可以增加训练数据的数量 。
3、Pathdreamer的工作原理
Pathdreamer 将原来的一个或多个观察序列作为输入 , 生成通往目标位置的预测路线 。预测的路线是事先提供 , 或由智能体在返回途中接触到的观察迭代更新 。输入与预测均包含 RGB、语义分割与深度图像 。
在内部 , Pathdreamer 使用了 3D 点云来表示环境的表面 。云中的点都标了它们的 RGB 颜色值和它们的语义分割类 , 比如墙壁、椅子或桌子 。
要在新的建筑物里预测即将映入眼前的事物 , 首先要将点云重新投射到新建筑的 2D 图像中、以提供“指导”图像 , 然后 , Pathdreamer 会从中生成逼真的高分辨率 RGB、语义分割和深度 。
随着模型的“移动” , 点云会积累新的观察结果(要么是真实的 , 要么是预测的) 。使用点云来记忆的一个优势是时序一致性(temporal consistency)——重新访问的区域会以与先前观察一致的方式呈现 。