gtsophy是人工智能的里程碑式成就

还记得柯洁吗?
5年前 , 柯洁身为中国排名第一的职业九段棋手 , 围棋世界史上最年轻的五冠王 , 成为了第二次人机大战的主角 。
让人无奈的是 , AlphaGo实在是太完美了 , 曾击败李世石的它再次以3:0击败了柯洁 。赛后 , 柯洁泪洒赛场的照片传得满世界都是 。
除了围棋之外 , 人工智能在许多游戏中都击败了人类 , 包括国际象棋、扑克等等 。现在 , 人工智能甚至可以在经典的赛车游戏GranTurismo上获得人类难以企及的高分 。
01人工智能又一次里程碑式的成就
索尼在前不久宣布 , 其研发人员已经开发出一种名为GTSophy的AI系统 。GTSophy是一种自主型AI , 利用索尼AI、PDI和SIE合作开发的新型深度强化学习平台进行训练 。各方通过汇集基础AI研发方面的专业知识、超逼真的真实世界赛车模拟器和大规模AI培训的基础设施 , 为GTSophy项目的成功做出了贡献 。
gtsophy是人工智能的里程碑式成就
文章图片

文章图片

据称 , 该系统控制的AI赛车手在超车方面表现突出 , 能够在GranTurismoSport比赛中击败顶级人类车手 。
关于这项成就 , 难免会有人认为这对于人工智能而言是一个简单的挑战 。毕竟 , 凝聚人类智慧的围棋看起来比赛车游戏要复杂很多 , 而赛车仅仅是速度和反应时间的问题 , 因此人工智能应该更容易掌握 。但赛车游戏和人工智能领域的专家表示 , GTSophy的成功是一个重大突破 , 这意味着人工智能开始在游戏中表现出对战术和战略的掌握 。
对于这项突破 , 斯坦福大学汽车教授J.ChristianGerdes在科学杂志《自然》的一篇社论中写道:"在面对面的比赛中如此巧妙地超越人类驾驶员代表了人工智能的一项里程碑式的成就 。"的确 , GTSophy在赛道上的成功表明 , 神经网络有朝一日可能会在自动驾驶汽车软件中发挥比今天更大的作用 。
02GTSophy的运作逻辑
GTSophy使用一种称为强化学习的方法进行训练 , 这本质上是一种试错的学习模式 。具体来说 , AI赛车被扔进一个没有指令的环境中 , 并因达到某些目标而得到奖励 。
在GTSophy的案例中 , 索尼的研究人员表示 , 他们会非常仔细地制定奖励规则 , 例如微调碰撞的惩罚 。通过规则的设定来塑造一种足够激进的驾驶风格 , 以赢得胜利 。不过 , 索尼的研发人员同样会设置相关的程序 , 来避免AI欺负新手赛车玩家 。
使用强化学习模式后 , GTSophy只需几个小时的训练就能在赛道上顺畅驰骋 , 并且能在一两天内比95%的人类车手更快 。经过大约45000个小时的总训练 , GTSophy已经能够在三条赛道上实现超越人类顶级玩家的表现 。(对于GranTurismoSport的玩家来说 , 有问题的赛道是DragonTrailSeaside , LagoMaggioreGP和CircuitdelaSarthe)
在针对人类测试AI的表现之前 , 研发人员普遍认为 , 相比人类玩家 , AI具有许多天生的优势 。对此 , 索尼的测试人员承认 , GTSophy确实具有一些优势 , 例如带有赛道边界坐标的精确路线地图以及掌握"有关每个轮胎的负载 , 每个轮胎的滑移角度和其他车辆状态的精确信息" 。但是 , 为了让竞争更公平 , 他们在两个特别重要的因素:动作频率和反应时间上对AI进行了相应的调整 。
GTSophy的输入上限为10Hz , 而理论最大人为输入为60Hz 。基于此 , 这会导致人类驾驶员在高速行驶时表现出更平稳的动作 。对于反应时间 , GTSophy能够在23-30毫秒内对比赛环境中的事件做出反应 , 这比专业运动员估计的200-250毫秒的最高反应时间要快得多 。针对这一点 , 研究人员为AI车手增加了人为延迟 , 将GTSophy的反应时间设置为100毫秒、200毫秒和250毫秒 。但是 , 这三项测试都达到了超越人类水平的单圈完成时间 。