《gt赛车》游戏中的ai技术( 二 )


“AI赛车手”的炼成
【《gt赛车》游戏中的ai技术】在GTSophy的开发过程中 , 研究人员探索了各种使用机器学习来避免建模复杂性的方法 , 包括使用监督学习来建模车辆动力学 , 以及使用模仿学习、进化方法或强化学习来学习驾驶策略 。为了取得成功 , 赛车手必须在四个方面具备高度技能:(1)赛车控制 , (2)赛车战术 , (3)赛车礼仪和(4)赛车策略 。
为了控制汽车 , 车手们对他们的车辆动力学和赛道的特性有详细的了解 。在此基础上 , 驾驶者建立所需的战术技能 , 通过防守对手 , 执行精确的演习 。同时 , 驾驶员必须遵守高度精炼但不精确的体育道德规则 , 最后 , 车手在模拟对手、决定何时以及如何尝试超车时 , 会运用战略思维 。模拟赛车是一个需要在具有高度真实、复杂物理环境中进行实时、连续控制的领域 , GTSophy在这种环境下的成功首次表明 , 在一系列汽车和赛道类型中 , 有可能训练出比顶尖人类赛车手更好的人工智能代理 。这一结果可以被视为是计算机在国际象棋、围棋、冒险、扑克牌和星际争霸等竞争性任务持续发展的另一个重要步骤 。
《gt赛车》游戏中的ai技术
文章图片

文章图片

图|GTSophy的训练(来源:Nature)
值得注意的是 , GTSophy在短短几个小时内就学会了绕道而行 , 并超过了数据集中95%的人类选手 , 它又训练了九天时间 , 累计驾驶时间超过了45000小时 , 跑圈时间减少了十分之一秒 , 直到圈速停止改善 。单凭进步奖励还不足以激励AI程序赢得比赛 。如果人类对手的速度足够快 , AI程序将学会跟随 , 并在不冒潜在灾难性碰撞风险的情况下尝试积累更多奖励 , 实现超车 。为了评估GTSophy , 研究人员在两项赛事中让GTSophy与顶级GT车手进行了较量 , GTSophy在所测试的三条赛道上都取得了超人的计时表现 , 它能够执行几种类型的转弯 , 有效地利用漂移 , 扰乱后面车辆 , 拦截对手并执行其他紧急操纵 。尽管GTSophy展示了足够的战术技能 , 但仍有许多方面有待改进 , 尤其是在战略决策方面 。例如 , GTSophy有时会在同一条跑道上留出足够的空间 , 让对手有机可乘 。
《gt赛车》游戏中的ai技术
文章图片

文章图片

图|AI车手超越人类玩家(来源:Nature)
竞技游戏外更值得关注
关于电子竞技、博弈类的游戏 , AI能战胜人类早已经不是什么稀奇事 , 而且可以肯定的是 , AI还会越来越强 , 即便是人类顶尖选手也只能甘拜下风 , 但能赢电子比赛并没有太多悬念和意义 , 关键还是看这些超越人类的AI程序如何切实攻克产业瓶颈 , 真实造福人类生活 。
1996年2月10日 , 超级电脑DeepBlue首次挑战国际象棋世界冠军Kasparov以2:4落败 。1997年5月再度挑战 , 最终DeepBlue以3.5:2.5击败了Kasparov , 成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统 。
但DeepBlue的缺陷是没有直觉 , 不具备真正的“智能灵魂” , 只能靠超强的计算能力弥补分析思考方面的缺陷 , 赢得比赛的DeepBlue很快也退役了 。
2016年3月 , 谷歌AI的AlphaGo在四场比赛中击败了围棋世界冠军李世石 , 被认为是AI真正意义上的里程碑 , AlphaGo当时使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法 , 在这种设计下 , 电脑可像人类大脑一样自发学习进行分析训练 , 不断学习提高棋力 。自此之后 , 各类AI程序新秀层出不穷 , 2018年12月10日 , DeepMind针对即时战略游戏星际争霸开发的人工智能AlphaStar能完虐全球99.8%的人类职业选手 。无疑 , 现在的GTSophy又是一个AI胜利的延续 。来自斯坦福大学机械工程系教授J.ChristianGerdes认为 , GTSophy研究所带来的影响也许能远远超出电子游戏范畴 , 随着许多公司致力于完善运送货物或乘客的全自动车辆 , 关于软件中有多少应该使用神经网络 , 以及有多少应该仅基于物理 , 值得进一步去探索 。总的来说 , 在感知和识别周围环境中的物体时 , 神经网络是无可争议的冠军 。然而 , 轨迹规划仍然是物理和优化领域 , GTSophy在游戏赛道上的成功表明 , 神经网络有一天可能会在自动化车辆的软件中发挥比今天更大的作用 。更具挑战性的可能是每圈的变化 。真实情况下 , 赛车的轮胎状况在每圈之间都会发生变化 , 人类驾驶员必须在整个比赛过程中适应这种变化 。GTSophy能用更多的数据做同样的事情吗?这些数据从何而来?这将使得人工智能有更多进化空间 。参考资料: