挑战 Google TPU,AI 芯片新玩家面临哪些难题?( 二 )


“大多数定制都是面向推理的 , 当这些定制芯片转向训练时 , 就需要浮点支持 , ”Synopsys 的 Diamantidis 表示 。
“但是如果需要的是一个 100% 应用于推理的解决方案 , 那么它的定点( fixed point)位数可能是八位甚至更低的精度 。如果模型是固定的 , 那么在推理基础设备之上进行定制是否有意义?例如 , 针对语音、视频以及其他重量级应用程序的定制解决方案 。大企业们(Hyperscaler)实际上正在投资应用于推理的芯片解决方案 , 这些推理适用于它们自身在 AI 领域的定制化高级模型和解决方案——但如果是需要处理多种应用 , 那么就需要更多的灵活性和可定制性 。”
当然 , 对 Google 而言 , 这已经是一个良性循环 。“ TPU 旨在满足 Google 数据中心内的特定工作负载 , ”Synopsys 的 Tadikonda 说 。“Google 最开始打造TPU , 是因为意识到处理如此庞大复杂的数据和计算 , 需要建立起大量的数据中心 。"
“第一代 TPU 体积大且非常耗电 , 但它已经通过不断地学习而得到了改进 , 这正是这些 TPU 的工作 , 这就是 Google。”
并非每家公司都能够使用 Google 的反馈循环 , 不过其他公司也确有其他选择 。“我们发现 , 其中一个关键点是尽可能早得关注和重视选择正确的架构 , ”西门子的 Saha 说 。“所谓正确 , 并不是指某一个人认为正确 , 也不是基于过去的经验 , 凭直觉做出的决定 , 因为现在还有太多的未知数 。业界正在做的 , 是在设计周期早期 , 依靠数据驱动做出决定 , 这样我们能够在发现某些东西不起作用时迅速做出改变 。”
这些决定是宏观的 , 也可以是微观的 。“比如说 , 你的存储元素与计算元素差距有多大?” Saha问道:“再比如 , 多久执行一次内存读取 , 这是一个重要的问题 , 因为读取和写入将直接影响整体的能效 。业界正在寻找新的架构 , 没有人知道什么样的架构才真正起作用 。不过可以确定的是 , 要有一定的可塑性 , 且在决定架构之前 , 能够确保有足够的市场数据来支撑 。”硬件和算法迭代快
影响架构选择的另一个因素是硬件和算法的发展速度 。这决定了数据中心所有者从他们购买的硬件中赚钱的时间 , 也决定了他们愿意支付的价格 , 同时限定了芯片开发的总成本 。
那么 , 数据中心芯片(即硬件)的使用寿命是多久?
“通常情况下 , 芯片或电路板的寿命为三到四年 , ”Xilinx 的 Ni 说 。“一些较为激进的数据中心可能会在这一时间段内升级 , 还有一些则会持续使用更长时间 。在人工智能领域 , 如果我们关注 Google TPU 的发布新闻 , 就能发现在过去六年左右的时间里 , Google 发行了四个版本的 TPU , 也就是说 , 几乎每隔一两年 Google 就会更换一次内部硬件 , 针对 AI 等快速变化的工作负载进行优化 。”
换个角度来看 , AI 芯片公司可能每 18 个月就有一次进入数据中心的机会 。“要搅动这个市场并不容易 , ”Saha 说 。“有两个重要因素——更换现有数据中心芯片的频率 , 以及添加新东西的频率 。我看见几乎所有的数据中心都在尝试更新的东西 , 几乎每个构建数据中心芯片的公司都在同一些终端客户合作 。“
“市场多久更换一次正在工作的芯片?只要芯片在工作 , 公司就会尽量延长芯片的使用寿命 。一旦芯片进入数据中心 , 持续的时间会很长且难以更换 。这就是为什么我们可以看到大型数据中心芯片领域有大量投资 。”
“一部分投资者认为这是赢家通吃的市场 , 最终会有一至三个获胜者获得最大的市场份额 。一旦市场被这些公司占领 , 这些公司的地位就很难被取代 。”设计面向 18 个月后的芯片