用全球最快 AI 超算秀肌肉后,黄仁勋要用 AI 抓住元宇宙

「下一个时代的AI」 , 在北京时间3月22日的英伟达GTC大会上 , 长达1小时40分钟的主题演讲中 , 创始人黄仁勋多次说起这个词 。
黑色的虚拟场景中 , 黄仁勋有条不紊地介绍了一系列服务于AI运算的硬件、软件、AI和机器人的应用框架 , 并介绍了英伟达过去一段时间借助AI在自动驾驶、虚拟世界、医疗等领域的成就 。
去年11月秋季的GTC2021上 , 黄仁勋曾高调宣布「进军元宇宙」 , 相比之下 , 此次的GTC2022聚焦的问题则接地气的多 。
诞生至今 , 「元宇宙」从被行业热捧 , 到成为「不切实际」的代名词 , 可谓大起大落 。冷静之后还未离场的元宇宙玩家们 , 不得不思考一个严肃的问题:要到达如此之远的未来 , 该从哪些事情做起 。
「AI」 , 是英伟达抓住的元宇宙命门 。
对于元宇宙而言 , 图像处理、生成能力面临千万级别的提升 , 而AI恰能进行更为复杂、更为精细的图像处理 , 无论是在复制模拟 , 还是在创新构建等方面 , AI都是不可或缺的基础 。
「AI」背后更为基础、更为关键的是「算力」 。
历经十几年的发展 , 越来越多的数据被汇集 , 越来越多的大型算法模型诞生 , 随之而来的是有待处理的数据与参数的急剧上升 。
有专业人士认为 , 要想实现《雪崩》中所描绘的元宇宙景象 , 起码需要1000倍的算力增长 , 苹果、特斯拉、Meta等行业巨头也正逐渐转向芯片自研与定制 。
行业呼唤更高效的计算硬件基础 , 面对突如其来杀到门口的「野蛮人」 , 英伟达选择主动出击 。
此次英伟达无论是发布基于全新架构Hopper的H100GPU、GraceCPU , 还是展现自身在AI软件方面的进展 , 无不透露出其对于抢立下一代AI潮头的布局与野心 。
01算力:重中之重
NVIDIAH100
主题演讲中 , 首先发布的是H100 , 这是首款基于全新Hopper架构的GPU 。
NVIDIAH100采用的是TSMC4N(台积电4纳米)工艺 , 集成800亿个晶体管 , 显著提升了AI、HPC、显存带宽、互连和通信的速度 , 并能够实现近5TB/s的外部互联带宽 。
「20块H100GPU可以承担起全球互联网的流量!」黄仁勋在会上豪迈宣布 。
H100实现了数量级的性能飞跃 , 是英伟达有史以来最大的图形处理器之一 。其FP8算力是4PetaFLOPS , FP16则为2PetaFLOPS , TF32算力为1PetaFLOPS , FP64和FP32算力为60TeraFLOPS 。
用全球最快 AI 超算秀肌肉后,黄仁勋要用 AI 抓住元宇宙
文章图片

文章图片

NVIDIAH100|英伟达
H100的大规模训练性能是「前辈」A100的9倍 , 大型语言模型推理的吞吐量是A100的30倍 ,
与此同时 , Hopper还专门为Transformer打造了专有引擎 , 这将使得原本耗时几周的训练缩短到几天之内 。在模型训练精度不变的情况下 , 性能提升6倍 。
此外 , H100还是全球首款具有机密计算功能的加速器 , 无论是AI模型还是客户数据都将受到保护 。
GraceCPU超级芯片
在H100之外 , 被黄仁勋称为「全球AI基础架构的理想CPU」的GraceCPU同样毫不逊色 。
GraceCPU是英伟达首款面向AI基础设施和高性能计算的专属CPU , 基于最新的数据中心架构Armv9 , 由两个CPU芯片组成 , 拥有144核CPU , 功耗500W , 性能较之前提升了两到三倍 。
用全球最快 AI 超算秀肌肉后,黄仁勋要用 AI 抓住元宇宙
文章图片

文章图片

GraceCPU|英伟达
两块CPU通过NVLink连接 , 该技术可以实现芯片之间的互联 , 具有高速率、低时延的特点 。GraceCPU与Hopper也可以通过NVLink进行各种定制化配置 。