成立十年,这家由中科院孵化的超算中心凭什么登上中国高性能计算机Top100榜单第三名?( 三 )


比方说,有些用户做计算,并不是简单地将一个程序放到超级计算机上就可以直接运行,而是需要在 Linux 命令行窗口下将源代码进行编译、调优、集成甚至更复杂的适配移植,这对广大只熟悉 Windows 操作系统的用户来说过于复杂 。
国家超算中心的主要任务是支持重量级的科研项目,取得出色的学术成果,如此一来,国家超算中心的计算资源自然会优先分配给重要的科研团队,这就导致了许多中小用户享受不到好的服务,出现「排队计算」的情况 。
基于这一行业需求,北京超级云计算中心便思考从商业运营的角度去解决国家超算中心的这部分外溢需求,根据这部分通用超算客户需求设计超级计算机和超算服务产品,通过灵活的方式将计算资源提供给超算市场的中小微「散户」 。
于是,2018 年,北京超级云计算中心发布了「中国科技云 · 超算云」,开始了超算商业化的探索征程 。
他们以云服务的方式输出超算资源,注重商业化运营,遵循「随需供应」、「按需扩容」的理念,在两年间占领了一定的超算市场,赢取了客户的信任,在吸引更多中小用户的过程中对 A 分区进行了扩容与提升,最终在 2020 年赢得了中国高性能计算机 TOP100 排行榜的第三名 。
郭宇表示:「赢得 TOP3 是结果,不是目的 。我们打造超算,本心是为了服务客户,获得该荣誉是锦上添花 。」
相对于聚焦 TOP3 的排名,郭宇更希望大家看到 A 分区背后的北京超级云计算中心及其独特的建设与运营模式 。
3
关于「计算」模式的新思考
郭宇提出了一个有意思的观点:作为一种「产品」,超算的独特之处在于,在用户购买超算资源时,用户需要的并不是超级计算机,而是想要解决问题 。就像人们在购买电钻时,他们想要的并不是电钻,而是电钻在墙上钻出的洞 。
所以,在市场上推广计算资源时,北京超级云计算中心往往是强调「客户服务」,而不只是中心的资源情况 。
从 A 分区来看,我们不难发现,北京超级云计算中心与国家超算中心的模式多有不同:
首先是建设周期 。国家超算中心由科技部或地方政府出资,超级计算机的项目申报需要经过层层审批,建设周期一般为 3-5 年,而 A 分区由北京超级云计算中心根据市场需求决定 。此外,A 分区的建设主要基于市场上已有的技术设备,减少了技术攻关的时间成本 。
比如,A 分区从 2019 年年底开始建设,从一个试验性的小集群到面向用户开放,2020 年年中扩容,只用了5周便扩容 1000 个节点,后续又逐步扩容至3000节点 。
其次是分布位置 。从地图上看,我们不难发现,国家超算中心基本分布在东部城市,而北京超级云计算中心的超算则主要分布在中西部,尤其是西部 。A 分区便是分布在宁夏 。超算中心是「耗电大户」,从商业运营的角度看,西部的电价明显更低 。
在建设 A 分区的时候,国家还没有发布十四五计划,「碳达峰」与「碳中和」的概念还未兴起 。郭宇谈道,从北京超级云计算中心的角度来看,他们在建设 A 分区时,主要是遵循商业运营的逻辑,而今年「双碳」热点出现后,他们意外地发现,自己的路线竟契合了国家的「双碳」战略 。
「西部有风力发电、光伏发电,能源丰富,而且年平均气温比较低,十分适合计算中心的生存,所以我们将西部作为主要的节点 。而且超算业务对实时通讯的需求不高,用户更关心的是产品的价格,至于机器是在本地、还是在几千公里以外的西部,他们并不关心 。」郭宇解释 。
北京超级云计算中心面向通用超算,用户数量大,符合长尾效应 。郭宇谈道:「有这些特点的市场,是比较适合用互联网的方式去服务的 。一是降低单用户的成本,二是贴身服务 。」