有关AMD chiplet的一些思考( 二 ) 半导体行业观察最有深度的半

文章图片

文章图片
网格设计权衡了一些额外的每元素连接，以获得更好的延迟和连接性。平均延迟仍然会有所不同，并且在数据流密集的情况下，数据可以通过多条路线到达需要去的地方。2D 网格是最简单的布局——隔壁的每个元素都在 x/y 单位之外。它围绕平面中的每个元素旋转，没有连接重叠。在利用一点 3D 的拓扑方面已经做了很多工作，当芯片上的堆叠技术被广泛实施时，我们可能会去这方面。之前有一篇论文硕大，如果在中介层级别实施网状网络，ButterDonut 可能是一个好主意，因为它最大限度地减少了跳跃链接。

文章图片

文章图片
另一种选择是Crossbar 。Crossbar 最基本的观点是它只为单个连接实现了有效的 all-to-all 全连接拓扑。Crossbar有多种类型，同样取决于带宽、延迟和功耗要求。Crossbar并不神奇，它真正的作用是解决连接问题。在本文的这一点上，我们还没有谈到这些元素是如何连接在一起的。在芯片内部通常意味着在硅中，但是当我们谈论将芯片连接在一起时，可能是通过interposer或 PCB ，这在它可以容纳的高速连接数量和数量方面受到更多限制。通常需要物理外部Crossbar开关来帮助简化封装上的连接，例如 NVIDIA 允许 8 个 Tesla GPU 通过经过 NVSwitch（实际上是一个Crossbar）以全对全的方式连接。在这个例子中，这是一个 Switching Crossbar 的图表，它充当一个矩阵或一个内部网格，管理数据需要去哪里。

文章图片

文章图片
在这些类型的环境中，即使与每个元素可能有两个或三个连接的其他配置相比， “只有”一个到纵横的连接，但考虑到纵横的带宽可能是直接连接的两倍/三倍。这仍然意味着每个元素都有多个有效连接，并在需要时享受倍数的带宽。
那么为什么 AMD 是有限的呢？进行所有这些关于连接性的解释的原因是，当 AMD 从 Zen 2 转移到 Zen 3 时，它增加了 CCX（core complex）内的核心数量。在 Zen 2 中，一个八核chiplet（小芯片）有两个四核 CCX ，每个都连接到主 IO 芯片，但在 Zen 3 中，单个 CCX 增长到八核，并且每个小芯片仍保持八核。当每个 CCX 有四个内核时，很容易想象（并测试）完全连接的四核拓扑。期望每个核心都连接到另一个核心并没有那么多额外的。现在每个 CCX 有 8 个内核，自发布以来， AMD 一直非常谨慎地谈论这些内核是如何连接在一起的。当在发布时被问及 Zen 3 八核 CCX 中的内核是否完全连接时， AMD 的总体态度是“不完全，但足够接近” 。这意味着介于ring和all to all设计之间，但更接近后者。在我们的测试中，我们看到八核的 CCX 延迟曲线与我们在四核时看到的相似。这基本上证实了 AMD 的评论——我们没有看到任何迹象表明 AMD 正在使用ring 。然而，在 Hot Chips 上， AMD 的 Mark Evers（首席架构师， Zen 3）展示了这张幻灯片：

文章图片

文章图片
考虑到 AMD 在之前关于拓扑的讨论中的担忧，看到它如此清楚地陈述，这有点令人震惊。在本次演示中出现新内容也令人震惊，因为几乎所有其他内容都已在之前的活动中展示过。然而，这会产生影响。