对战6亿用户竞技手游:聚焦复杂游戏中的多智能体博弈( 四 )


天然拥有很高的社会拟合度 , 是用游戏做决策智能研究的优势 。
刘宇说 , Go-Bigger项目只想做好一件事 , 就是想通过打造一款类似于球球大作战和AGAR这样家喻户晓的游戏 , 让大家先把游戏AI和决策智能联系起来 , 且人人可上手 。
“现在Go-Bigger希望做的 , 其实非常像CV领域的ImageNet 。”
十年来 , 计算机视觉一直是最火爆的领域 。但是CV是如何发展起来的 , “其实就是开源了更大的数据集 。”
刘宇说到 , “在ImageNet比赛之前 , 数据集都非常小 , 研究员很难定义产业界真正需要的算法问题 。但ImageNet的推出 , 为当时的技术带来了挑战 , 随着GPU的算力提升 , 越来越多的人涌入到CV领域 , 成就了现在深度学习+计算机视觉的蓬勃发展 。”
现在决策智能领域的大多数工作者 , 很难接触到像星际、DOTA2这样的资源 , 在相对较理想的小数据集和仿真环境中做实验、发论文 , 是学术研究的常态 。
“而决策智能将走向何方 , 其实就是从训练平台和仿真环境两个方向发力 。我们希望在保持现有资源能够接触的情况下 , 能让决策智能更接近真实场景 , 并逐渐推动行业中更多的平台开源 。”刘宇说到 。
决策智能的研究刚刚上路 , 首先是数据的问题 , 其次是标准化的问题 。
目前 , 决策智能的标准化难题是三块:
一个是环境观测的标准化
二个是动作空间的标准化
三个是算法工作流的标准化
“CV标准化做得好 , 因为这里面所有的数据都可以用非常规整的tensor来表示 , 像PyTorch、 TensorFlow 。”
但在决策智能领域 , 会涉及到多模态的输入 , 比如空间信息(Spatial info)、实体信息(Entity info)、Scalar info(标量信息) 。“难点是将所有模态都统一到一个数据格式下 。”刘宇说到 , “目前一些做法是将各种模态的数据统一到一个encoder , 让它们映射到同一个observation space(观测空间) 。”
有了状态空间后 , 就需要决策做什么动作 。
比如 , 强化学习领域很多算法很难同时支持离散和连续两种动作空间 。而真实场景里还有更复杂的动作空间 , 比如前后依赖的动作空间、序列的动作空间 , 跟马尔可夫链性质不太相关的或者违背的动作空间 。“这些动作空间如何大一统到一个训练的平台和一个训练流里 , 也是非常难的问题 。”
“我们希望通过算法设计出新的head(决策智能训练网络的头) , 后期只需要做一些plug in(插件)的工作 , 几乎能够适配所有的算法 。”
第三块是算法的标准化 。各种算法之间的差异性非常大且难以抽象 , 如果强行把所有算法兼容到一套框架内 , 代码会非常冗余 。“我们现在想要从计算流的角度思考强化学习的优化过程 , 把强化学习里所有原子模块拆分 , 类似PyTorch里operator , 那么以后只需要拼算法积木 , 或者研发一个新的强化学习算法 。”
这件事本身是很长期主义的一件事 , Go-Bigger只是一个开始 。
刘宇说 , “我们希望用5年时间 , 从工具和学术问题定义两个方面推动决策智能落地 , 能够让平台、算法集、生产的工具链适配到几乎所有决策智能行业应用上 , 将行业和学术的各自为阵 , 变成欣欣向荣 。”
比赛持续到明年4月 , 那时 , “我们期待所有选手百家争鸣 , 能够定义出新的问题 , 也会设计出更多样性的算法 , 既有纯强化学习的 , 也有结合硬编码和强化学习的 。当然 , 我们希望训练出的AI不仅能处理好输赢 , 还能兼顾到游戏的拟人性 。”
如今 , 全球首届“ AI《球球大作战》:Go-Bigger多智能体决策智能挑战赛”已正式开赛 。作为面向全球技术开发者和在校学生的科技类竞赛活动 , 本次比赛旨在推动决策智能相关领域的技术人才培养 , 打造全球领先、原创、开放的决策AI开源技术生态 。协作、博弈、对抗 , 精彩纷呈 , 欢迎前来挑战!