英伟达特供中国的H800，及最新DPU和GPU重磅更新(5) -「九尾网」

驱动此 SKU 的是一个特定的利基市场：内存容量。像 GPT 系列这样的大型语言模型在许多方面都受到内存容量的限制，因为它们甚至会很快填满 H100 加速器以保存它们的所有参数（在最大的 GPT-3 模型的情况下为 175B）。因此，NVIDIA 选择拼凑出一个新的 H100 SKU，它为每个 GPU 提供的内存比他们通常的 H100 部件多一点，后者最高为每个 GPU 80GB。

在封装的盖下，我们看到的本质上是放置在 PCIe 卡上的GH100 GPU的特殊容器。所有 GH100 GPU 都配备 6 个 HBM 内存堆栈（HBM2e 或 HBM3），每个堆栈的容量为 16GB。然而，出于良率原因，NVIDIA 仅在其常规 H100 部件中提供 6 个 HBM 堆栈中的 5 个。因此，虽然每个 GPU 上标称有 96GB 的 VRAM，但常规 SKU 上只有 80GB 可用。

而H100 NVL 是神话般的完全启用的 SKU，启用了所有 6 个堆栈。通过打开第 6个HBM 堆栈，NVIDIA 能够访问它提供的额外内存和额外内存带宽。它将对产量产生一些实质性影响——多少是 NVIDIA 严密保守的秘密——但 LLM 市场显然足够大，并且愿意为近乎完美的 GH100 封装支付足够高的溢价，以使其值得 NVIDIA 光顾。

即便如此，应该注意的是，客户无法访问每张卡的全部 96GB。相反，在总容量为 188GB 的内存中，它们每张卡的有效容量为 94GB。在今天的主题演讲之前，NVIDIA 没有在我们的预简报中详细介绍这个设计，但我们怀疑这也是出于良率原因，让 NVIDIA 在禁用 HBM3 内存堆栈中的坏单元（或层）方面有一些松懈。最终结果是新 SKU 为每个 GH100 GPU 提供了 14GB 的内存，内存增加了 17.5%。同时，该卡的总内存带宽为 7.8TB/秒，单个板的总内存带宽为 3.9TB/秒。

除了内存容量增加之外，更大的双 GPU/双卡 H100 NVL 中的各个卡在很多方面看起来很像放置在 PCIe 卡上的 H100 的 SXM5 版本。虽然普通的 H100 PCIe 由于使用较慢的 HBM2e 内存、较少的活动 SM/张量核心和较低的时钟速度而受到一些限制，但 NVIDIA 为 H100 NVL 引用的张量核心性能数据与 H100 SXM5 完全相同，这表明该卡没有像普通 PCIe 卡那样进一步缩减。我们仍在等待产品的最终、完整规格，但假设这里的所有内容都如所呈现的那样，那么进入 H100 NVL 的 GH100 将代表当前可用的最高分档 GH100。