gtsophy登陆ps4/ps5平台( 二 )


gtsophy登陆ps4/ps5平台
文章图片

文章图片

训练主要针对两个连续值的维度:转向和速度 。
同时 , 为了把GTSophy和人类拉到同一起跑线上 , 研究者们还调慢了它的操作速度:
对游戏的交互频率为10赫兹(人类标准是60赫兹) , 反应时间则分别为100毫秒、200毫秒、250毫秒 。
在一张完整的地图中 , 研究者以6秒为单位 , 将智能体所跑的赛道量化为一段一段的“静态地图段” , 并将每一段赛道的左右边缘和中心线编码为60个等距的三维点:
gtsophy登陆ps4/ps5平台
文章图片

文章图片

训练场准备好了 , 现在就是让GTSophy真正成为一名会转弯、会思考的赛车手 。
行为者-评价者机制
索尼使用了一种新的深度学习算法 , 也叫做量化回归的行为者-评价者(QR-SAC)方法 。
AI智能体会被扔到一个没有指令的环境中 , 并根据评价者(也就是价值函数)的评估来选择行动 , 并根据完成目标的结果而获得奖励或惩罚 。
比如 , 智能体会因为保持高速前进而获奖励 , 也会因为出界、撞墙或失去牵引力受到惩罚 。
这种奖惩机制使智能体迅速得到积极的反馈 , 慢慢开始熟悉在赛道上的行为 。
事实上 , GTSophy只用了几个小时就学会了在赛道上行驶 , 并很快就在Maggiore赛道上超越了17700名玩家:
gtsophy登陆ps4/ps5平台
文章图片

文章图片

但这种单纯的速度 , 或者说赛道完成进度上的奖励并不足以激励智能体赢得比赛 。
因为如果对手速度足够快 , 智能体就完全可以通过跟随并学习对手的“偷懒”的方式积累大量奖励 , 最终也能完成目标 。
于是 , 研究者们增加了“超车奖励” , 并且 , 相对于对手的距离的改变也会与奖励积分成比例 。
同时 , 赛车的碰撞上也有奖惩机制 , 研究人员设置了一种较为保守的奖励:
在确保智能体能以足够强悍的驾驶风格赢得胜利的同时 , 也不至于会粗暴地将其他赛车赶出道路 , 而遭受真正的赛车规则的惩罚 。
最终 , GTSophy在GT赛车比赛中胜过了2021年TGRGT杯冠军、2020年国家杯世界冠军和2021年亚军、2018年国家杯亚洲/大洋洲冠军等多位世界顶级赛车手 。
gtsophy登陆ps4/ps5平台
文章图片

文章图片

在比赛中 , GTSophy在三条赛道上都取得了第一名 。
而在比赛中 , 它能够执行几种类型的转弯 , 有效地利用漂移 , 扰乱后面车辆 , 拦截对手并执行其他紧急操纵 。
gtsophy登陆ps4/ps5平台
文章图片

文章图片

不过 , 研究者也提到 , GTSophy在战略决策方面还存在着一些改进的空间:有时会在同一条跑道上留出足够的空间 , 让对手有机可乘 。
索尼要用它开发自动驾驶
看到这里 , 你觉得GTSophy能力如何?
反正几位世界级选手们是服气了 。
在GT赛车世界级赛事上斩获三冠的宫园拓真(TakumaMiyazono)表示:
“Sophy的速度非常快 , 单圈时间胜过了此前对最佳车手的预期 。”
——在其中一场比赛中 , GTSophyRouge以5.8秒的优势战胜了第二名山中智明(2021年TGRGT杯冠军) , 最快圈速为1:54.373 , 比山中快了2秒多 。
而GTSophy的能力显然不仅仅能在游戏中大杀四方 。