用全球最快 AI 超算秀肌肉后，黄仁勋要用 AI 抓住元宇宙「下一个时代的AI」

「下一个时代的AI」，在北京时间3月22日的英伟达GTC大会上，长达1小时40分钟的主题演讲中，创始人黄仁勋多次说起这个词。
黑色的虚拟场景中，黄仁勋有条不紊地介绍了一系列服务于AI运算的硬件、软件、AI和机器人的应用框架，并介绍了英伟达过去一段时间借助AI在自动驾驶、虚拟世界、医疗等领域的成就。
去年11月秋季的GTC2021上，黄仁勋曾高调宣布「进军元宇宙」，相比之下，此次的GTC2022聚焦的问题则接地气的多。
诞生至今，「元宇宙」从被行业热捧，到成为「不切实际」的代名词，可谓大起大落。冷静之后还未离场的元宇宙玩家们，不得不思考一个严肃的问题：要到达如此之远的未来，该从哪些事情做起。
「AI」，是英伟达抓住的元宇宙命门。
对于元宇宙而言，图像处理、生成能力面临千万级别的提升，而AI恰能进行更为复杂、更为精细的图像处理，无论是在复制模拟，还是在创新构建等方面， AI都是不可或缺的基础。
「AI」背后更为基础、更为关键的是「算力」。
历经十几年的发展，越来越多的数据被汇集，越来越多的大型算法模型诞生，随之而来的是有待处理的数据与参数的急剧上升。
有专业人士认为，要想实现《雪崩》中所描绘的元宇宙景象，起码需要1000倍的算力增长，苹果、特斯拉、Meta等行业巨头也正逐渐转向芯片自研与定制。
行业呼唤更高效的计算硬件基础，面对突如其来杀到门口的「野蛮人」，英伟达选择主动出击。
此次英伟达无论是发布基于全新架构Hopper的H100GPU、GraceCPU ，还是展现自身在AI软件方面的进展，无不透露出其对于抢立下一代AI潮头的布局与野心。
01算力：重中之重
NVIDIAH100
主题演讲中，首先发布的是H100 ，这是首款基于全新Hopper架构的GPU 。
NVIDIAH100采用的是TSMC4N（台积电4纳米）工艺，集成800亿个晶体管，显著提升了AI、HPC、显存带宽、互连和通信的速度，并能够实现近5TB/s的外部互联带宽。
「20块H100GPU可以承担起全球互联网的流量！」黄仁勋在会上豪迈宣布。
H100实现了数量级的性能飞跃，是英伟达有史以来最大的图形处理器之一。其FP8算力是4PetaFLOPS ， FP16则为2PetaFLOPS ， TF32算力为1PetaFLOPS ， FP64和FP32算力为60TeraFLOPS 。

文章图片

文章图片

NVIDIAH100|英伟达
H100的大规模训练性能是「前辈」A100的9倍，大型语言模型推理的吞吐量是A100的30倍，
与此同时， Hopper还专门为Transformer打造了专有引擎，这将使得原本耗时几周的训练缩短到几天之内。在模型训练精度不变的情况下，性能提升6倍。
此外， H100还是全球首款具有机密计算功能的加速器，无论是AI模型还是客户数据都将受到保护。
GraceCPU超级芯片
在H100之外，被黄仁勋称为「全球AI基础架构的理想CPU」的GraceCPU同样毫不逊色。
GraceCPU是英伟达首款面向AI基础设施和高性能计算的专属CPU ，基于最新的数据中心架构Armv9 ，由两个CPU芯片组成，拥有144核CPU ，功耗500W ，性能较之前提升了两到三倍。

文章图片

文章图片

GraceCPU|英伟达
两块CPU通过NVLink连接，该技术可以实现芯片之间的互联，具有高速率、低时延的特点。GraceCPU与Hopper也可以通过NVLink进行各种定制化配置。