挑战 Google TPU,AI 芯片新玩家面临哪些难题?

雷锋网按:距离 Google 第一代 TPU 助力 AlphaGo 打败李世石已有 5 年 , Google TPU 已经更新到第四代 。与此同时 , 数据中心领域的 AI 芯片大热 , 在大量投资下涌现了不少新玩家 , 尽管未来是光明的 , 但新玩家们不得不面对 Google 等大企业雄厚的财力和已经形成的市场格局 。挑战 Google TPU , AI 芯片新玩家还会面临哪些难题?围绕这一话题 , 外媒作者 BRIAN BAILEY 进行了全面而深入的解读 , 雷锋网对本文进行了不改变原意的编译 。
近些年 , 大量资金涌入到数据中心领域新型 AI 处理器的研发中 。
但在投资热潮的背后 , 也要注意到问题所在 。毕竟 , 该领域需要处理的问题是特定的 , 结果不可预测;且该领域的竞争者们财力雄厚(因为它们往往是巨头) , 能够提供用户黏性非常强的产品 。
对于新型 AI 芯片设计公司而言 , 最大的问题在于:来自终端的数据不足 。
挑战 Google TPU,AI 芯片新玩家面临哪些难题?
文章图片

文章图片
需要多少个数据中心 , 才能实现盈利?
通常 , 芯片设计公司在设计一个新的 AI 处理器时 , 首先会弄清楚一个基本问题—— 如何定义产品的灵活性?是专为单一任务而设计?还是支持更多的工作负载?
这两个问题之间存在一系列解决方案 , 但与过去的许多解决方案相比 , 为 AI 处理器找到合适的解决方案更加困难 , 对数据中心工作负载而言尤其如此 。
之所以更加困难 , 是因为有许多因素需要平衡 。“既需要在一定的成本和时间内设计和制造芯片 , 又要考虑成本和回报问题 。”Synopsys 人工智能产品和研发总监 Stelios Diamantidis 解释道 。这些限制因素缩小了 AI 处理器的潜在市场 。
“设计和制造定制芯片 , 什么时候才能赚钱?”Synopsys 验证组工程副总裁 Susheel Tadikonda 说 。
“如果我们要为数据中心提供定制芯片 , 那么需要多少个数据中心才能实现盈利?也许可以高价出售芯片 , 但光是这样远远不够 。如果是为消费电子设备设计和制造芯片 , 那么这一领域存在十亿台设备体量 , 这也是 AISC 芯片能够赚取更多利润的市场之一 , 当然设备体量越大越好 。”
不过就算最终弄清楚多少个数据中心才能实现盈利 , 也无法确定设计方案 。
“芯片定制化程度越来越高 , 以至于能够为非常特定的算法创建芯片 , 提供更高的能效和性能 , ”西门子 EDA 战略和业务发展高级经理 Anoop Saha 说: “但这会牺牲一部分市场 , 也会缩短芯片的寿命 。如果两年后出现了一个新算法 , 那为旧算法定制的芯片的价值还会如初吗?很多事情都会互相牵制 。“
“一些边缘算法确实已经趋于稳定 。这是因为业界经过多年研究 , 找到一些多场景适用的最佳算法 , 例如我们已经看到的神经卷积网络算法 CNN(convolutional neural network) , 还有对于唤醒词检测、手写识别等特定应用找到的最佳算法 。”Anoop Saha 补充道 。芯片自定义的优势
要对芯片进行自定义 , 核心是理解面向何种工作负载——芯片自定义的确为许多玩家带来优势 。
Xilinx 人工智能和软件产品营销总监 Nick Ni 表示:“大多数大型企业已经组建了自己的芯片部门 , 并为其数据中心一些高工作负载打造芯片 。例如 , 如果 Google 将‘推荐’型神经网络视为其数据中心中最高的工作负载之一 , 那么它就很有必要为此创建专用芯片 。如果排名第二的工作负载是语音识别 , 排名第三的是 YouTube 的视频转码 , 那么为其打造专用芯片都是有意义的 。“
“其实这里的机会很多 , 但 Google 只是一个孤例 。几年前 , 谷歌发表了一篇广受好评的论文 , 文章陈述了一个事实——数据中心的工作负载类型非常丰富 , 但没有一种工作负载占比超过 10% , 这意味着还有大量占比微小的工作负载需要优化 。”