挑战 Google TPU，AI 芯片新玩家面临哪些难题？( 二 ) 雷锋网按：距离Google第一代T

“大多数定制都是面向推理的，当这些定制芯片转向训练时，就需要浮点支持， ”Synopsys 的 Diamantidis 表示。
“但是如果需要的是一个 100% 应用于推理的解决方案，那么它的定点（ fixed point）位数可能是八位甚至更低的精度。如果模型是固定的，那么在推理基础设备之上进行定制是否有意义？例如，针对语音、视频以及其他重量级应用程序的定制解决方案。大企业们（Hyperscaler）实际上正在投资应用于推理的芯片解决方案，这些推理适用于它们自身在 AI 领域的定制化高级模型和解决方案——但如果是需要处理多种应用，那么就需要更多的灵活性和可定制性。”
当然，对 Google 而言，这已经是一个良性循环。“ TPU 旨在满足 Google 数据中心内的特定工作负载， ”Synopsys 的 Tadikonda 说。“Google 最开始打造TPU ，是因为意识到处理如此庞大复杂的数据和计算，需要建立起大量的数据中心。"
“第一代 TPU 体积大且非常耗电，但它已经通过不断地学习而得到了改进，这正是这些 TPU 的工作，这就是 Google。”
并非每家公司都能够使用 Google 的反馈循环，不过其他公司也确有其他选择。“我们发现，其中一个关键点是尽可能早得关注和重视选择正确的架构， ”西门子的 Saha 说。“所谓正确，并不是指某一个人认为正确，也不是基于过去的经验，凭直觉做出的决定，因为现在还有太多的未知数。业界正在做的，是在设计周期早期，依靠数据驱动做出决定，这样我们能够在发现某些东西不起作用时迅速做出改变。”
这些决定是宏观的，也可以是微观的。“比如说，你的存储元素与计算元素差距有多大？” Saha问道：“再比如，多久执行一次内存读取，这是一个重要的问题，因为读取和写入将直接影响整体的能效。业界正在寻找新的架构，没有人知道什么样的架构才真正起作用。不过可以确定的是，要有一定的可塑性，且在决定架构之前，能够确保有足够的市场数据来支撑。”硬件和算法迭代快
影响架构选择的另一个因素是硬件和算法的发展速度。这决定了数据中心所有者从他们购买的硬件中赚钱的时间，也决定了他们愿意支付的价格，同时限定了芯片开发的总成本。
那么，数据中心芯片（即硬件）的使用寿命是多久？
“通常情况下，芯片或电路板的寿命为三到四年， ”Xilinx 的 Ni 说。“一些较为激进的数据中心可能会在这一时间段内升级，还有一些则会持续使用更长时间。在人工智能领域，如果我们关注 Google TPU 的发布新闻，就能发现在过去六年左右的时间里， Google 发行了四个版本的 TPU ，也就是说，几乎每隔一两年 Google 就会更换一次内部硬件，针对 AI 等快速变化的工作负载进行优化。”
换个角度来看， AI 芯片公司可能每 18 个月就有一次进入数据中心的机会。“要搅动这个市场并不容易， ”Saha 说。“有两个重要因素——更换现有数据中心芯片的频率，以及添加新东西的频率。我看见几乎所有的数据中心都在尝试更新的东西，几乎每个构建数据中心芯片的公司都在同一些终端客户合作。“
“市场多久更换一次正在工作的芯片？只要芯片在工作，公司就会尽量延长芯片的使用寿命。一旦芯片进入数据中心，持续的时间会很长且难以更换。这就是为什么我们可以看到大型数据中心芯片领域有大量投资。”
“一部分投资者认为这是赢家通吃的市场，最终会有一至三个获胜者获得最大的市场份额。一旦市场被这些公司占领，这些公司的地位就很难被取代。”设计面向 18 个月后的芯片