有关AMD chiplet的一些思考( 二 )
文章图片
文章图片
网格设计权衡了一些额外的每元素连接 , 以获得更好的延迟和连接性 。平均延迟仍然会有所不同 , 并且在数据流密集的情况下 , 数据可以通过多条路线到达需要去的地方 。2D 网格是最简单的布局——隔壁的每个元素都在 x/y 单位之外 。它围绕平面中的每个元素旋转 , 没有连接重叠 。在利用一点 3D 的拓扑方面已经做了很多工作 , 当芯片上的堆叠技术被广泛实施时 , 我们可能会去这方面 。之前有一篇论文硕大 , 如果在中介层级别实施网状网络 ,ButterDonut 可能是一个好主意 , 因为它最大限度地减少了跳跃链接 。
文章图片
文章图片
另一种选择是Crossbar 。Crossbar 最基本的观点是它只为单个连接实现了有效的 all-to-all 全连接拓扑 。Crossbar有多种类型 , 同样取决于带宽、延迟和功耗要求 。Crossbar并不神奇 , 它真正的作用是解决连接问题 。在本文的这一点上 , 我们还没有谈到这些元素是如何连接在一起的 。在芯片内部通常意味着在硅中 , 但是当我们谈论将芯片连接在一起时 , 可能是通过interposer或 PCB , 这在它可以容纳的高速连接数量和数量方面受到更多限制 。通常需要物理外部Crossbar开关来帮助简化封装上的连接 , 例如 NVIDIA 允许 8 个 Tesla GPU 通过经过 NVSwitch(实际上是一个Crossbar)以全对全的方式连接 。在这个例子中 , 这是一个 Switching Crossbar 的图表 , 它充当一个矩阵或一个内部网格 , 管理数据需要去哪里 。
文章图片
文章图片
在这些类型的环境中 , 即使与每个元素可能有两个或三个连接的其他配置相比 , “只有”一个到纵横的连接 , 但考虑到纵横的带宽可能是直接连接的两倍/三倍 。这仍然意味着每个元素都有多个有效连接 , 并在需要时享受倍数的带宽 。
那么为什么 AMD 是有限的呢?进行所有这些关于连接性的解释的原因是 , 当 AMD 从 Zen 2 转移到 Zen 3 时 , 它增加了 CCX(core complex)内的核心数量 。在 Zen 2 中 , 一个八核chiplet(小芯片)有两个四核 CCX , 每个都连接到主 IO 芯片 , 但在 Zen 3 中 , 单个 CCX 增长到八核 , 并且每个小芯片仍保持八核 。当每个 CCX 有四个内核时 , 很容易想象(并测试)完全连接的四核拓扑 。期望每个核心都连接到另一个核心并没有那么多额外的 。现在每个 CCX 有 8 个内核 , 自发布以来 , AMD 一直非常谨慎地谈论这些内核是如何连接在一起的 。当在发布时被问及 Zen 3 八核 CCX 中的内核是否完全连接时 , AMD 的总体态度是“不完全 , 但足够接近” 。这意味着介于ring和all to all设计之间 , 但更接近后者 。在我们的测试中 , 我们看到八核的 CCX 延迟曲线与我们在四核时看到的相似 。这基本上证实了 AMD 的评论——我们没有看到任何迹象表明 AMD 正在使用ring 。然而 , 在 Hot Chips 上 , AMD 的 Mark Evers(首席架构师 , Zen 3)展示了这张幻灯片:
文章图片
文章图片
考虑到 AMD 在之前关于拓扑的讨论中的担忧 , 看到它如此清楚地陈述 , 这有点令人震惊 。在本次演示中出现新内容也令人震惊 , 因为几乎所有其他内容都已在之前的活动中展示过 。然而 , 这会产生影响 。
- 线上新书发布!云上带你了解有关“冬奥”的那些事儿
- 基辛格:英特尔已经牢牢领先于amd
- amd发布3d缓存版锐龙75800x3d:最适合游戏玩家
- 特斯拉model3后驱版换上amdryzen芯片
- amd确定将为rx6000系列显卡换装更高速的gddr6显存
- 体验ThinkPad X13 2021锐龙版商务轻薄本:搭载AMD锐龙PRO商用芯片,安全和生产力兼备
- amdrx6500xt显卡解禁上市pcie4.0x4
- ?咪莫手游怎么快速通关(?咪莫所有关卡通关攻略大全)
- 帝盟再次拥抱amdrx6600xt命名如此简单
- AMD 3D V-Cache 技术测试:延迟略增,但处理器性能更强
