成立十年,这家由中科院孵化的超算中心凭什么登上中国高性能计算机Top100榜单第三名?( 二 )


因此,回顾超算市场的发展历史,在 CPU 进入「多核时代」后,北京超级云计算中心的成立,是卡在了CPU算力爆发的起点 。但当时,北京超级云计算中心还未正式开始商业化的探索,前期工作也主要以维护中科院计算机网络信息中心的超算集群,支持院内科研项目为主 。
除了技术的加持,国家超算中心的陆续成立,也逐渐在国内孵化了一个算力的市场 。
国家超算中心的建设模式是:科技部与地方政府各出一部分资金建设好国家超算中心后,在运营阶段,超算中心的部分运营费用由地方政府的财政补贴,同时,国家部委和地方政府向部分高校科研人员开放课题申请,由高校科研人员从课题经费中支出部分资金到国家超算中心去采购计算资源 。
在这样的模式下,国内逐渐形成了一个商业循环的算力市场 。随着国家超算中心的出现,科研院所与高校逐渐缩减自建超算的规模,增加对外部超算资源的采购 。如此一来,超算市场的用户越来越多,对超算的需求也不断增加 。当市场扩大到一定的程度,必然会出现分化,分为尖端超算市场、通用超算市场与行业超算市场 。
对于国家超算中心来说,服务如此分化明显的市场并不是一件易事,且国家超算中心存在的目的主要是支持国家大课题(如航空、宇宙、气象等)、推进科研进步 。这就造成了超算市场的服务缝隙:海量需要超算资源的小课题用户在提出需求时,并不能得到满足 。
正是看到超算市场的这一缝隙,2018 年,北京超级云计算中心开始了超算商业化的探索,希望能够提供「随需扩容」的计算服务,满足尖端超算以外的大规模通用超算市场 。
2
超算商业化探索
中国高性能计算机 TOP100 的榜单排名由超级计算机计算能力决定,而计算能力主要由超级计算机的单节点性能与集群规模决定 。
北京超级云计算 A 分区的 Linpack 测试性能达 3.743PFlops,计算峰值性能达 7.035PFlops,CPU 核数达到 192000,几乎是第四名往后的计算机的三倍及以上 。
据郭宇介绍,A 分区从 2019 年年底开始建设,而后在 2020 年逐步扩容到 3000 节点,背后的原因并不是为了争夺 TOP3,而是为了满足客户的需求 。
在郭宇看来,国内的超算市场可以大致分为三类:尖端超算、通用超算与行业超算 。其中,国家超算中心所服务的需求市场,便主要是尖端超算市场,满足尖端超算需求的超级计算机,以难度高、设计性能平衡为主,要兼顾计算、访存、通信与 I/O 等,服务对象是国家级的科研项目,重点是出成果,而不是盈利 。
而北京超级云计算中心的目标市场是通用超算,主要面向万核以下(尤其是千核以下)的应用,为需求不一的海量用户提供租赁式超算服务 。对于北京超级云计算中心来说,他们的目标是超算的商业化运营,实现超算业务的盈利,反哺到中心建设的投入中,实现自给自足、灵活外延的正循环 。
「让计算不排队」,是北京超级云计算中心的核心理念 。
从 2011 年成立至今,北京超级云计算中心经历了两个主要的阶段:
刚成立的几年,北京超级云计算中心以运营中科院体系内的超算为主,包括中科院计算机网络信息中心在 2014 年推出的超级计算机「元」、2015 年的「元」二期等等 。在这一阶段,北京超级云计算中心的建设模式、运营模式与国家超算中心的体系有许多相同之处 。
到了 2017 年,他们逐渐发现了上述所说的国家超算中心无法满足的外溢市场需求 。随着国内科研发展的深入推进,高校教师对计算的需求越来越大,超算的用户类型也越来越多,应用越来越复杂,用户对计算机的服务要求也越来越高 。