京东云有一套高效的调度系统也叫阿基米德

阿基米德曾说过:“给我一个支点 , 我就能撬起整个地球 。”在京东云 , 阿基米德是一套高效的调度系统 , 这套系统调度着大规模Docker集群和Kubernetes集群 。
京东拥有超过900万SKU的自营商品 , 京东物流为5.9万家企业客户提供一体化供应链服务 , 仅2021年京东618期间 , 累计下单超过3438亿元 , 窥一斑而见全豹 , 能够调配如此庞大规模业务背后的系统 , 其背后的应用数量和复杂程度可想而知 。简单的调度分配资源算法已经无法满足复杂的调度需求 , 阿基米德调度系统应运而生 。
目前 , 阿基米德调度系统已经全面接管京东的应用资源调度 , 每日调度百万台容器实例运转 , 服务履约率达到98.3% 。2021年京东618 , 京东云在支撑京东全线业务正常运行下 , 超大规模集群的CPU资源利用率提升3倍 , 单位订单资源成本下降30% , 内存平均使用率提升57% , 交付效率提升150%……
京东云有一套高效的调度系统也叫阿基米德
文章图片

文章图片
撬动数据中心的支点
在行业首个混合云操作系统京东云云舰中 , 阿基米德作为核心调度系统 , 是资源交付的基石 , 负责整个京东数据中心的资源调度 , 是撬动整个数据中心的支点 。
京东云有一套高效的调度系统也叫阿基米德
文章图片

文章图片
京东的电商场景中 , 购物车、订单、详情等 , 涉及到的每一台容器分布 , 包括容器编排、单机计算资源、内存资源 , 均由阿基米德分配和调度 , 特别是618、11.11的超大流量场景下 , 少数容器编排错误都有可能给业务带来致命影响 , 调度器需负责把控峰值时每一台容器计算的质量 , 其重要性可想而知 。
经历京东体系复杂场景的多年磨练 , 阿基米德可实现最优的集群全局调度、最优的一次作业调度 , 不仅能确保全局资源编排和成本最优、资源运行最稳定 , 还能在集群内选择最合适的宿主机 , 以最佳的资源使用、最少的相互干扰(如 CPU 分布、IO 争抢) , 来运行提交的计算作业 。
五大技术支撑 , 成就领先调度能力
1、基于预测的智能调度
阿基米德在核心功能——调度方面 , 利用机器学习、深度学习智能算法 , 对应用的资源使用情况进行画像统计 , 并对应用的未来资源使用情况进行预测 , 以对应用进行合理部署 , 实现资源的优化调度 。
具体来看 , 阿基米德采用强化机器学习算法 , 可根据应用的历史数据 , 提取其资源使用的特征 , 进而将不同的应用进行归类 , 形成应用画像 。综合应用标签和批处理任务的描述 , 对未来一段时间的任务调度进行提前规划 , 使得业务能够正常运行的同时 , 资源得到充分的利用 , 有效防止了批处理任务与长期服务的资源竞争 。
阿基米德的智能调度可以成倍提升资源利用率成倍提升 , 极大降低企业采购成本 , 以今年618为例 , 阿基米德调度实现CPU利用率3倍的提升 。
2、精准驱逐与碎片整理
资源碎片在几乎每台服务器上都有发生 , 不同批次采购的服务器规格性能不同 , 服务器上的CPU或者内存配额没有同时分配完 , 就会出现资源碎片 。
同时在长期服务中 , 特别是面向用户的任务 , 会出现明显的高峰低谷 , 而且不同长期服务的资源消耗也不同 , 因此集群中的时空资源利用率不均是常态 。
针对资源碎片和时空分布不均问题造成的资源浪费 , 阿基米德采用批处理任务进行统一填充式调度 , 完成资源碎片的充分利用、资源的时空复用 , 保障长期服务稳定存在 , 以及低频度迁移 。同时阿基米德会时刻保持一定的资源储备 , 应对突发流量的资源需求 。