京东云有一套高效的调度系统也叫阿基米德( 二 )


3、调度器仿真系统及回放
为充分模拟真实事件状况和实际操作过程 , 阿基米德支持通过模拟器+线上数据回放 , 对调度请求进行仿真模拟 , 形成新的数据建模 , 并优化调度方案 , 为智能调度提供更优方案 。
以最小成本、最快速度 , 阿基米德可分三步完成1:1机器资源和请求要求的调度需求模拟 , 培养真实复杂场景的调度能力 。
仿真剧本管理模块:用以采集清洗线上真实数据 , 生成仿真剧本 , 并可以支持纯模拟剧本生成 。
仿真调度模拟模块:将仿真数据灌入 , 经过调度算法调度 , 模拟调度过程 , 最终生成调度结果 。
调度算法评测模块:对调度过程和结果进行监测和评测 , 并通过可视化图表对调度过程进行展示 。
4、离在线混合部署
伴随京东购物节规模指数级增长 , 添置服务器成为浩资巨大的烧钱工程 。高出日常峰值的机器过后闲置 , 又不可避免地造成资源浪费 。
阿基米德支持将延迟不敏感的离线计算任务和延迟敏感的在线服务 , 部署到同一集群上运行 , 让在线服务的空闲资源充分被离线计算任务所使用 , 在线业务、离线业务共享混合云操作系统云舰的资源池 。
通过应用分级、DiskIO限速、Job调度管理、Pod流量限速等方式 , 阿基米德可保证离线业务不会影响在线业务 , 提高资源利用率 。
5、多样化IP地址管理
通过用户annotation配置 , 阿基米德可实现多应用场景的IP地址管理 , 包括IP地址随机分配 , 用户指定pod IP地址 , 用户应用分组内IP保留和用户自定义私有IP池等 。
复杂场景实践 , 数智化基础设施降本增效
在零售行业 , 针对离在线任务的不同运行需求(在线任务资源占用少、响应要求快 , 离线任务占用资源大、响应要求慢) , 阿基米德混合部署两个集群 , 把不同类型的任务调度到相同的物理资源上 , 借助智能调度及资源隔离等方式保障SLO(服务等级目标service level objective) , 极大降低成本 。
在金融行业 , 尤其是支付场景 , 阿基米德让各种配置不同的设施能够在交易高峰期 , 以秒级速度将在线服务器的各种软件、应用转移到离线服务器中 , 极大提升资源利用率 。
在互联网行业 , 经常出现流量高并发的业务场景 , 阿基米德通过冷热节点混部方式 , 充分释放冷节点CPU利用率 , 有效满足日志等数据处理需求 。遇到购物节这类单量爆涨的场景 , 也可以通过K8S管理与调度充足计算资源支持 , 保证每一单平稳顺畅 。
不止于资源调度 , 阿基米德在绿色节能方面也有卓越表现 。
通常而言 , 机房的电力消耗主要是制冷为 CPU 降温 。阿基米德会根据应用标签与调度规划 , 对于服务器 CPU 的主频进行相应调整 , 以达到节能降耗的作用 , 在多个核心机房进行的大规模实践中 , 已取得了降低能耗降低 17% 的成果 。
经过多年京东业务实践 , 阿基米德调度系统已在大规模超复杂场景中 , 实现了常态化应用 , 并通过混合云操作系统云舰对外开放 , 让更多产业客户用更低的成本获得更强的计算能力 , 持续提升客户的数智基础设施效率 。
未来 , 阿基米德调度系统将进一步推动优化调度算法 , 提升调度的准确性 , 在整合计算、提升效率、节能降耗方面进行更多的实践 , 并把更多的业务一线的调度数据和模型与业界分享 。【推广】
责编:叶壮、庞晟
【京东云有一套高效的调度系统也叫阿基米德】
京东云有一套高效的调度系统也叫阿基米德
文章图片

文章图片