全球最快ai超级计算机airsc将成为全球最快ai超级计算机( 三 )


但是Meta仍不满足 。
打造全球最快、最安全的AI超算
为了满足Meta在生产环境和AI研究这两大方面日益增长的算力需求 , RSC必须持续升级扩容 。
按照Meta的RSC第二阶段(P2)计划 , 到今年7月 , 也即半年之内 , 整个计算集群的A100GPU总数提升到惊人的1.6万块……
初代RSC采用的DGXA100单机数量是760台 , 折合6,080张显卡——这样计算的话 , 也就是说RSC将在P2再增加9,920张显卡 , 即Meta需要再从英伟达采购1,240台DGXA100超级计算机……
就连英伟达也表示 , Meta的计划 , 将让RSC成为英伟达DGXA100截至目前最大的客户部署集群 , 没有之一 。
算力提升了 , 其它配套设施 , 包括存储和网络 , 也要跟上 。
按照Meta的预计 , RSC的P2完成后 , 其数据存储总量将达到1EB——折合超过10亿GB 。
不仅如此 , 整个超算集群的单个节点之间的通讯带宽也获得了史无前例般的提升 , 达到惊人的16TB/s , 并且实现一比一过载(也即每个DGXA100计算节点对应一个网络接口 , 不出现多节点共享接口争抢带宽资源的情况)
(这里还有个点值得单独提一下:按照Meta团队的估计 , 像RSC这样采用DGXA100节点组建超算集群的做法 , 能够支持的节点上限也就是1.6万了 , 再多就会出现过载 , 意味着追加投资的边际收益显著降低 。)
全球最快ai超级计算机airsc将成为全球最快ai超级计算机
文章图片

文章图片

全球最快ai超级计算机airsc将成为全球最快ai超级计算机
文章图片

文章图片

在数据安全的角度 , Meta这次也没有忘了在新闻稿中专门介绍其数据处理方式 , 以求令公众安心 。
“无论是检测有害内容 , 还是创造新的增强现实体验——为了打造新的AI模型 , 我们都会用到来自公司生产系统 , 取自真实世界的数据 , ”Meta表示 , 这也是为什么RSC从设计之初就加入了数据隐私和数据安全方面的考虑 。只有这样 , Meta的研究院才能够安全地使用加密、匿名化后的真实世界数据来训练模型 。
1)RSC被设计为无法和真正的互联网直接连接 , 而是和位于RSC所在地附近的一座Meta数据中心进行连接;
2)当Meta的研究人员向RSC的服务器导入数据的时候 , 这些数据首先要通过一道隐私审查系统 , 确认数据已经进行了匿名化;
3)在数据正式投入到AI模型算法的训练之前 , 数据也会再次进行加密 , 并且密钥是周期生成和抛弃的 , 这样即使有旧的训练数据存储 , 也无法被访问;
4)数据只会在训练系统的内存中解密 , 这样即使有不速之客闯入RSC , 对服务器进行物理访问 , 也无法破解数据 。
可能是出于保密的目的 , Meta甚至连RSC的具体所在地都没有透露……
不过根据已知的情况 , RSC的附近必有一座Facebook/Meta数据中心存在 。并且 , 下图截取自RSC的公告视频 , 图中我们可以看到 , AIRSC位于右上 , 左下则是Meta的一座数据中心 。图中有着大量较高的树木 。
全球最快ai超级计算机airsc将成为全球最快ai超级计算机
文章图片

文章图片

硅星人基本可以确定 , 上图中的Meta数据中心位于美国弗吉尼亚州Henrico县 。该县是美国东部最大的数据中心集中地 , 也是连接欧洲、南美、亚洲、非洲的多条海底光缆在美国的末端所在地 。至于RSC的实际所在地 , 其前身应该是QTSRichmond数据中心 。
全球最快ai超级计算机airsc将成为全球最快ai超级计算机
文章图片