挑战 Google TPU,AI 芯片新玩家面临哪些难题?( 三 )


如果从今天开始设计芯片 , 那么这颗芯片必须满足18个月后需要满足的条件 。
“当我们决定对芯片进行模块化时 , 我们还必须针对特定精度进行优化 , ”Xilinx 的 Ni 说 。“例如 , 当我们选择在 8 位数精度上做文章时 , 我们不得不立下赌约 , 当这款产品成为主流时 , 8 位仍然是主流 。
“我们还要确保制造出的产品可以处理混合精度网络 , 其中一半是 8 位 , 四分之一是 4 位 , 另外四分之一是 1 位 。为此 , 我们在 AI 引擎中执行 8 位 , 其运行基本性能非常快 , 然后可以在 FPGA 架构中实现 4 位和 1 位 MAC 单元 。”
设计时间和算法进化的时间要保持一致 。“在 18 个月内 , 应用程序很可能会变得相当不同 , ”Tadikonda 警告说 。“我认为今天的数据科学家不会向任何人保证他们将在未来 18 个月内运行与今天相同的模型 。”
还有其他一系列决策也需要作出 。
“量化可能是许多能效指标中的最大因素 , ”Saha 说 。“量化将对推理产生更大的影响 , 推理分散在数据中心和边缘之间 , 但在‘学习’端也需要一些量化 。当我们量化成较低的位数时 , 就意味着我们正在权衡能效而不是准确性 。训练可能需要浮点数 , 不过有一些新型浮点数出现 。谷歌在设计下一代 TPU 时 , 他们创造了 Bfloat16 , 这是用于训练的“大脑浮点数” 。它与 IEEE 浮点数非常不同 , 它在精度上具有浮点数的优势 , 但也具有显着的能效优势 。”
不过这将让经济因素陷入困境 。
“对于如此规模的 ASIC , 需要在快速变化节奏里付出巨大的努力 , 只有少数公司能够保证其经济性 , ”Tadikonda 说 。“因为有关这些数据的用例正在增加 , 所以算法正在发生变化 。我们今天认为有效的算法明天不一定有效 , 想要跟上节奏并处于最前沿 , 就必须不断创新或重新研发 ASIC 。谷歌占据优势 , 因为它拥有足够多的数据以至于能快速搅动局面 , 它从自己的 TPU 中学到了很多东西 , 知道为了保证程序运行地更好需要作出哪些改变 。”
“如果我是第三方芯片开发商 , 我没有这些数据 , 就只能依靠我的客户来提供 , 因此周转周期会更长 。谷歌的情况非常特殊 。”
数据的缺乏也给验证带来压力 。“浮点硬件的验证对满足这些芯片的性能和功耗要求至关重要 , ”OneSpin市场营销主管 Rob Van Blommestein 说 。
“长期以来 , 浮点硬件设计的验证一直被认为是一项重大挑战 。FPU(floating-point unit)将浮点运算的数学复杂性与需要复杂控制路径的各种特殊情况相结合 。我们需要一种正式的验证解决方案 , 以验证由硬件浮点单元 (FPU) 计算出的算术运算结果是否与 IEEE 754 标准规范准确匹配 。”结论
人们常说 , 数据是新的石油 , 这一比喻在人工智能领域得以明显体现 。
对于芯片架构师来说 , 这个比喻再恰切不过 。他们需要访问数据来改进构建更好的产品 , 这也是数据中心处理器用户黏性高的原因;架构师们一旦拥有数据中心处理器 , 就有机会获得需要的数据 。
另一个唯一可行的办法是加快设计速度来提升效率 , 推动产品成本的回收——但具有讽刺意味的是 , 在试图通过提升效率来解决问题的时候 , AI 却成为了唯一的阻碍者 。
毕竟 , AI 领域的算法进化速度和变数实在是太大了 。
雷锋网编译 , 文章源自原SemiEngineering
【挑战 Google TPU,AI 芯片新玩家面临哪些难题?】来源:雷锋网