对战6亿用户竞技手游：聚焦复杂游戏中的多智能体博弈( 四 ) 2021年11月

天然拥有很高的社会拟合度，是用游戏做决策智能研究的优势。
刘宇说， Go-Bigger项目只想做好一件事，就是想通过打造一款类似于球球大作战和AGAR这样家喻户晓的游戏，让大家先把游戏AI和决策智能联系起来，且人人可上手。
“现在Go-Bigger希望做的，其实非常像CV领域的ImageNet 。”
十年来，计算机视觉一直是最火爆的领域。但是CV是如何发展起来的， “其实就是开源了更大的数据集。”
刘宇说到， “在ImageNet比赛之前，数据集都非常小，研究员很难定义产业界真正需要的算法问题。但ImageNet的推出，为当时的技术带来了挑战，随着GPU的算力提升，越来越多的人涌入到CV领域，成就了现在深度学习+计算机视觉的蓬勃发展。”
现在决策智能领域的大多数工作者，很难接触到像星际、DOTA2这样的资源，在相对较理想的小数据集和仿真环境中做实验、发论文，是学术研究的常态。
“而决策智能将走向何方，其实就是从训练平台和仿真环境两个方向发力。我们希望在保持现有资源能够接触的情况下，能让决策智能更接近真实场景，并逐渐推动行业中更多的平台开源。”刘宇说到。
决策智能的研究刚刚上路，首先是数据的问题，其次是标准化的问题。
目前，决策智能的标准化难题是三块：
一个是环境观测的标准化
二个是动作空间的标准化
三个是算法工作流的标准化
“CV标准化做得好，因为这里面所有的数据都可以用非常规整的tensor来表示，像PyTorch、 TensorFlow 。”
但在决策智能领域，会涉及到多模态的输入，比如空间信息（Spatial info）、实体信息（Entity info）、Scalar info（标量信息）。“难点是将所有模态都统一到一个数据格式下。”刘宇说到， “目前一些做法是将各种模态的数据统一到一个encoder ，让它们映射到同一个observation space(观测空间) 。”
有了状态空间后，就需要决策做什么动作。
比如，强化学习领域很多算法很难同时支持离散和连续两种动作空间。而真实场景里还有更复杂的动作空间，比如前后依赖的动作空间、序列的动作空间，跟马尔可夫链性质不太相关的或者违背的动作空间。“这些动作空间如何大一统到一个训练的平台和一个训练流里，也是非常难的问题。”
“我们希望通过算法设计出新的head（决策智能训练网络的头），后期只需要做一些plug in（插件）的工作，几乎能够适配所有的算法。”
第三块是算法的标准化。各种算法之间的差异性非常大且难以抽象，如果强行把所有算法兼容到一套框架内，代码会非常冗余。“我们现在想要从计算流的角度思考强化学习的优化过程，把强化学习里所有原子模块拆分，类似PyTorch里operator ，那么以后只需要拼算法积木，或者研发一个新的强化学习算法。”
这件事本身是很长期主义的一件事， Go-Bigger只是一个开始。
刘宇说， “我们希望用5年时间，从工具和学术问题定义两个方面推动决策智能落地，能够让平台、算法集、生产的工具链适配到几乎所有决策智能行业应用上，将行业和学术的各自为阵，变成欣欣向荣。”
比赛持续到明年4月，那时， “我们期待所有选手百家争鸣，能够定义出新的问题，也会设计出更多样性的算法，既有纯强化学习的，也有结合硬编码和强化学习的。当然，我们希望训练出的AI不仅能处理好输赢，还能兼顾到游戏的拟人性。”
如今，全球首届“ AI《球球大作战》：Go-Bigger多智能体决策智能挑战赛”已正式开赛。作为面向全球技术开发者和在校学生的科技类竞赛活动，本次比赛旨在推动决策智能相关领域的技术人才培养，打造全球领先、原创、开放的决策AI开源技术生态。协作、博弈、对抗，精彩纷呈，欢迎前来挑战！