英伟达特供中国的H800，及最新DPU和GPU重磅更新(6) -「九尾网」

这里需要强调复数。如前所述，H100 NVL 不是单个 GPU 部件，而是双 GPU/双卡部件，它以这种方式呈现给主机系统。硬件本身基于两个 PCIe 外形规格的 H100，它们使用三个 NVLink 4 桥接在一起。从物理上讲，这实际上与 NVIDIA 现有的 H100 PCIe 设计完全相同——后者已经可以使用 NVLink 桥接器进行配对——所以区别不在于两板/四插槽庞然大物的结构，而是内部芯片的质量。换句话说，您今天可以将普通的 H100 PCIe 卡捆绑在一起，但它无法与 H100 NVL 的内存带宽、内存容量或张量吞吐量相匹配。

令人惊讶的是，尽管有出色的规格，但 TDP 几乎保持不变。H100 NVL 是一个 700W 到 800W 的部件，分解为每块板 350W 到 400W，其下限与常规 H100 PCIe 的 TDP 相同。在这种情况下，NVIDIA 似乎将兼容性置于峰值性能之上，因为很少有服务器机箱可以处理超过 350W 的 PCIe 卡（超过 400W 的更少），这意味着 TDP 需要保持稳定。不过，考虑到更高的性能数据和内存带宽，目前还不清楚 NVIDIA 如何提供额外的性能。Power binning 在这里可以发挥很大的作用，但也可能是 NVIDIA 为卡提供比平常更高的提升时钟速度的情况，因为目标市场主要关注张量性能并且不会点亮整个 GPU一次。

否则，鉴于 NVIDIA 对 SXM 部件的普遍偏好，NVIDIA 决定发布本质上最好的 H100 bin 是一个不寻常的选择，但在 LLM 客户的需求背景下，这是一个有意义的决定。基于 SXM 的大型 H100 集群可以轻松扩展到 8 个 GPU，但任何两个 GPU 之间可用的 NVLink 带宽量因需要通过 NVSwitch 而受到限制。对于只有两个 GPU 的配置，将一组 PCIe 卡配对要直接得多，固定链路保证卡之间的带宽为 600GB/秒。

但也许比这更重要的是能够在现有基础设施中快速部署 H100 NVL。LLM 客户无需安装专门为配对 GPU 而构建的 H100 HGX 载板，只需将 H100 NVL 添加到新的服务器构建中，或者作为对现有服务器构建的相对快速升级即可。毕竟，NVIDIA 在这里针对的是一个非常特殊的市场，因此 SXM 的正常优势（以及 NVIDIA 发挥其集体影响力的能力）可能不适用于此。

总而言之，NVIDIA 宣称 H100 NVL 提供的 GPT3-175B 推理吞吐量是上一代 HGX A100 的 12 倍（8 个 H100 NVL 对比 8 个 A100）。对于希望尽快为 LLM 工作负载部署和扩展系统的客户来说，这肯定很有吸引力。如前所述，H100 NVL 在架构特性方面并没有带来任何新的东西——这里的大部分性能提升来自 Hopper 架构的新变压器引擎——但 H100 NVL 将作为最快的 PCIe H100 服务于特定的利基市场选项，以及具有最大 GPU 内存池的选项。