Oracle Cloud 拥有多达 512 个 Nvidia GPU 的集群,以及每秒 200 GB 的 RDMA 网络。该基础设施支持包括 Lustre 在内的多个文件系统,吞吐量为每秒 2 TB

Nvidia 还宣布有更多公司采用了其 H100 GPU。Amazon 宣布他们的 EC2“UltraClusters”和 P5 实例将基于 H100。“这些实例可以使用他们的 EFA 技术扩展到 20,000 个 GPU,”Nvidia 超大规模和 HPC 计算副总裁 Ian Buck 在新闻发布会上说。

EFA 技术是指 Elastic Fabric Adapter,它是由 Nitro 编排的网络实现,它是一种处理网络、安全和数据处理的通用定制芯片。

Meta Platforms 已开始在Grand Teton中部署 H100 系统,这是社交媒体公司下一代 AI 超级计算机的平台。


总结

在昨天开幕的GTC上,英伟达还带来了多样化的产品,例如用于特定推理的的英伟达 L4 GPU。据报道,这款 GPU 可以提供比 CPU 高 120 倍的人工智能视频性能。它提供增强的视频解码和转码功能、视频流、增强现实和生成 AI 视频。

此外,英伟达还联合客户打造由 16 个 DGX H100 系统组成,每个系统配备八个 H100 GPU的生成式AI超级计算机Tokyo-1。根据 Nvidia 的 AI 触发器数学计算,这相当于大约一半的 exaflop AI 能力;由于每个 H100(一开始将有 128 个)提供 30 teraflops 的峰值 FP64 功率,因此它应该达到大约 3.84 petaflops 的峰值。

由此可见,黄仁勋正在带领英伟达走向一个新阶段。


转载自:半导体行业观察