继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?

近年来 , 世界模型(World Model)在机器人、模拟与强化学习中均取得了出色的研究结果 。
2018年 , Jürgen Schmidhuber 与 David Ha 首次以无监督的方式训练世界模型 , 使模型能快速学习环境中的压缩时空表征 , 再将世界模型中的特征作为智能体的输入 , 训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务 。
今年2月 , Google AI 也用世界模型 , 在 Atari 游戏中实现了达到人类水平的表现 。
但是 , 相比简单的游戏环境 , 现实的世界环境要复杂得多 。
不久前 , 在发表于 ICCV 2021 的一篇工作(“Pathdreamer: A World Model for Indoor Navigation”)上 , Google AI 团队提出了一个世界模型 , 叫作“Pathdreamer” , 可以仅基于有限的种子观察与原先计划的导航路线 , 生成一幅智能体“肉眼”不可见的建筑物区域的、360o 高清摄像 。
继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
论文链接:https://arxiv.org/pdf/2105.08756.pdf
Google AI的团队将Pathdreamer应用于机器人导航任务中 , 成功率高达50.4%!仅比ground truth设置低了 8.6%(59%)!
1、什么是世界模型?
世界模型(World Model)首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出 , 主要出发点是打造一个通用强化学习环境的生成神经网络模型 , 为强化学习技术的落地提供完美的模拟环境 。这篇工作入选了当年 NeurIPS 的 oral paper 。
继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
世界模型的灵感来源于心理学上的“心理世界模型”(mental model of the world) 。
在人对世界的理解过程中 , 我们往往是以有限的感官所能感知到的事物为基础 , 形成一个心理世界模型 。我们所做的决定和行动都是基于这个模型 。雷锋网
为了处理流经我们日常生活的大量信息 , 我们的大脑学会了信息的空间域和时域的抽象表示 。我们能够观察一个场景并记住其中的抽象描述 。雷锋网
继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
图注 / 世界模型示例 , 源自 Scott McCloud 的《理解漫画》一书
证据还表明 , 我们在任何时刻所感知的 , 都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的 。雷锋网
心理模型不仅仅是预测未来 , 而且会根据我们当前的运动行为来预测未来的感官数据 。我们能够在这种预测模型上采取行动 , 并在我们面临危险时表现出快速的行为 , 而不需要有意识地规划一个行动路线 。
以棒球为例 , 一个棒球运动员只有毫秒级的时间来决定如何挥动球棍 , 这个时间甚至比视觉信号从眼球传到大脑的时间还要短 。对专业运动员来说 , 这个动作几乎是下意识的 , 他们的肌肉在正确的时间和地点挥动球棍 , 与他们内部模型的预测一致 。他们可以根据他们对未来的预测迅速采取行动 , 而不需要有意识地推出可行的击球计划 。
继LSTM之父用世界模型来模拟2D赛车后,谷歌又推出全新世界模型助力导航:360度无死角,就问你怕了没?
文章图片

文章图片
在许多强化学习问题中 , 智能体既需要一个对过去和现在状态的良好描述 , 还需要一个优秀的模型来预测未来的状态 。作为真实世界的一个表征 , 世界模型采用无监督的方式进行训练 , 能取得较好的策略 。
2018年 , 当 Jürgen Schmidhuber 与 David Ha 提出世界模型后 , 他们将世界模型用于解决一个赛车竞速的强化学习任务 。