SXM(ソケット)

TSUBAME 3.0 スーパーコンピュータのコンピューティングノードに 4 つの NVIDIA Tesla P100 SXM モジュールが搭載されている
GPU が搭載されたソケットの隣にある裸の SXM ソケット

SXM(サーバーPCI Expressモジュール)[1]は、Nvidiaコンピューティングアクセラレータをシステムに接続するための高帯域 幅ソケットソリューションです。P100モデル以降のNvidia Teslaの各世代、 DGXコンピュータシリーズHGXボードシリーズには、GPUドーターカードの高帯域幅と電力供給を実現するSXMソケットタイプが付属しています。[2] Nvidiaは、 DGXシステムシリーズのモデルなどで、これらの組み合わせをエンドユーザー製品として提供しています。現在のソケット世代は、 PascalベースのGPUではSXM 、 VoltaベースのGPUではSXM2とSXM3 、 AmpereベースのGPUではSXM4 HopperベースのGPUではSXM5です。これらのソケットは、これらのアクセラレータの特定のモデルに使用され、PCIe同等品よりもカードあたりのパフォーマンスが高くなります。[2] DGX-1システムはSXM-2ソケットを搭載した最初のシステムであり、P100 GPUを搭載したフォームファクタ互換のSXMモジュールを搭載した最初のシステムであり、後にV100 GPUを搭載したSXM2モジュールへのアップグレード(または事前装備)が可能であることが発表されました。[3] [4]

SXMボードは通常4基または8基のGPUスロットを搭載していますが、Nvidia DGX-2などのソリューションでは複数のボードを接続することで高いパフォーマンスを実現しています。SXMボード用のサードパーティソリューションも存在しますが、Supermicroなどのシステムインテグレーターの多くは、4基または8基のソケット構成で提供される、プレビルドのNvidia HGXボードを使用しています。[5]このソリューションは、SXMベースのGPUサーバーのコストと難易度を大幅に低減し、同世代のすべてのボード間で互換性と信頼性を実現します。

例えばHGXボード上のSXMモジュール、特に最近の世代では、GPU間の通信を高速化するためのNVLinkスイッチが搭載されている場合があります。これにより、 CPUPCIeの制限によって通常発生するボトルネックがさらに軽減されます。[2] [6]ドーターカード上のGPUは、NVLinkを主要な通信プロトコルとして使用します[説明が必要]。たとえば、HopperベースのH100 SXM5ベースのGPUは、18個のNVLink 4チャネルで最大900 GB/秒の帯域幅を使用でき、各チャネルは50 GB/秒の帯域幅を提供します。[7]対照的に、PCIe 5.0は、x16スロット内で最大64 GB/秒の帯域幅を処理できます。[8]この高帯域幅は、GPUがNVLinkバスを介してメモリを共有できることも意味し、HGXボード全体をホストシステムに単一の大規模なGPUとして表示できます。[9]

電力供給もSXMソケットによって行われるため、PCIe相当のカードに必要な外部電源ケーブルは不要です。これと水平マウントを組み合わせることで、より効率的な冷却機構が実現され、SXMベースのGPUはより高いTDPで動作できるようになります。例えば、HopperベースのH100は、SXMソケットからのみ最大700Wの電力を供給できます。[10]ケーブルが不要なため、大規模システムの組み立てや修理も大幅に容易になり、故障箇所の数も減少します。[2]

初期のNvidia Tegra の自動車向け評価ボード「Drive PX2」には、カードの両側に 2 つのMXM (モバイル PCI Express モジュール) ソケットがありました。このデュアル MXM 設計は、SXM ソケットの Nvidia Tesla 実装の前身と考えることができます。

DGXで使用されるアクセラレータの比較: [11] [12] [13]

モデル建築ソケットFP32
CUDA
コア
FP64 コア
(Tensor を除く)

INT32/FP32
コアの混合
INT32
コア
ブースト
クロック
メモリ
クロック
メモリ
バス幅
メモリ
帯域幅
VRAM単精度(
FP32
倍精度(
FP64
INT8
(非テンソル)
INT8
密テンソル
INT32FP4
密テンソル
FP16FP16
密テンソル
bfloat16
密テンソル
TensorFloat-32
(TF32)
密テンソル
FP64
密テンソル
インターコネクト
(NVLink)
グラフィックプロセッサL1キャッシュL2キャッシュTDPダイサイズトランジスタ
プロセス発売
P100パスカルSXM/SXM235841792該当なし該当なし1480MHz1.4 ギガビット/秒 HBM24096ビット720 GB/秒16 GB HBM210.6 TFLOPS5.3 TFLOPS該当なし該当なし該当なし該当なし21.2 TFLOPS該当なし該当なし該当なし該当なし160 GB/秒GP1001344 KB (24 KB × 56)4096 KB300ワット610 mm 2153億TSMC 16FF+2016年第2四半期
V100 16GBボルタSXM251202560該当なし51201530MHz1.75 ギガビット/秒 HBM24096ビット900 GB/秒16 GB HBM215.7 TFLOPS7.8 TFLOPS62トップス該当なし15.7トップス該当なし31.4 TFLOPS125 TFLOPS該当なし該当なし該当なし300 GB/秒GV10010240 KB (128 KB × 80)6144 KB300ワット815 mm 221.1億TSMC 12FFN2017年第3四半期
V100 32GBボルタSXM351202560該当なし51201530MHz1.75 ギガビット/秒 HBM24096ビット900 GB/秒32 GB HBM215.7 TFLOPS7.8 TFLOPS62トップス該当なし15.7トップス該当なし31.4 TFLOPS125 TFLOPS該当なし該当なし該当なし300 GB/秒GV10010240 KB (128 KB × 80)6144 KB350ワット815 mm 221.1億TSMC 12FFN
A100 40GBアンペアSXM4691234566912該当なし1410MHz2.4 ギガビット/秒 HBM25120ビット1.52 TB/秒40 GB HBM219.5 TFLOPS9.7 TFLOPS該当なし624トップス19.5トップス該当なし78 TFLOPS312 TFLOPS312 TFLOPS156 TFLOPS19.5 TFLOPS600 GB/秒GA10020736 KB (192 KB × 108)40960 KB400ワット826 mm 254.2億TSMC N72020年第1四半期
A100 80GBアンペアSXM4691234566912該当なし1410MHz3.2 ギガビット/秒 HBM2e5120ビット1.52 TB/秒80 GB HBM2e19.5 TFLOPS9.7 TFLOPS該当なし624トップス19.5トップス該当なし78 TFLOPS312 TFLOPS312 TFLOPS156 TFLOPS19.5 TFLOPS600 GB/秒GA10020736 KB (192 KB × 108)40960 KB400ワット826 mm 254.2億TSMC N7
H100ホッパーSXM516896460816896該当なし1980MHz5.2 ギガビット/秒 HBM35120ビット3.35 TB/秒80 GB HBM367 TFLOPS34 TFLOPS該当なし1.98 ポップス該当なし該当なし該当なし990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/秒GH10025344 KB (192 KB × 132)51200 KB700ワット814 mm 280 BTSMC 4N2022年第3四半期
H200ホッパーSXM516896460816896該当なし1980MHz6.3 ギガビット/秒 HBM3e6144ビット4.8 TB/秒141 GB HBM3e67 TFLOPS34 TFLOPS該当なし1.98 ポップス該当なし該当なし該当なし990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/秒GH10025344 KB (192 KB × 132)51200 KB1000ワット814 mm 280 BTSMC 4N2023年第3四半期
B100ブラックウェルSXM6該当なし該当なし該当なし該当なし該当なし8 ギガビット/秒 HBM3e8192ビット8 TB/秒192 GB HBM3e該当なし該当なし該当なし3.5 ポップス該当なし7 PFLOPS該当なし1.98 PFLOPS1.98 PFLOPS989 TFLOPS30テラフロップス1.8 TB/秒GB100該当なし該当なし700ワット該当なし208 BTSMC 4NP2024年第4四半期
B200ブラックウェルSXM6該当なし該当なし該当なし該当なし該当なし8 ギガビット/秒 HBM3e8192ビット8 TB/秒192 GB HBM3e該当なし該当なし該当なし4.5 ポップス該当なし9 PFLOPS該当なし2.25 PFLOPS2.25 PFLOPS1.2 PFLOPS40 TFLOPS1.8 TB/秒GB100該当なし該当なし1000ワット該当なし208 BTSMC 4NP

参考文献

  1. ^ Michael Brown, W.; et al. (2012). 「ハイブリッドCray XK6スーパーコンピュータにおける分子動力学パフォーマンスの評価」Procedia Computer Science 9 : 186–195 . doi : 10.1016 /j.procs.2012.04.020 .
  2. ^ abcd Proud, Matt. 「最大のコンピューティングスループットの達成:PCIe vs. SXM2」。The Next Platform 。 2022年3月31日閲覧
  3. ^ Volta アーキテクチャのホワイトペーパー nvidia.com
  4. ^ DGX 1 ユーザーガイド nvidia.com
  5. ^ servethehome (2020年5月14日). 「NVIDIA A100 4x GPU HGX Redstone プラットフォーム」. ServeTheHome . 2022年3月31日閲覧。
  6. ^ 「高度なマルチGPU通信のためのNVLinkとNVSwitch」。NVIDIA
  7. ^ 「NvidiaのH100 – 概要、機能、そして重要性」データセンターナレッジ | データセンター業界のニュースと分析2022年3月23日. 2022年3月31日閲覧
  8. ^ 「PCIe 5.0は価値があるか? PCIe 5.0のメリット(2022年)」www.techreviewer.com . 2022年3月31日閲覧
  9. ^ 「NVIDIA HGX A100: A100 GPUとNVSwitchを搭載」NVIDIA . 2022年3月31日閲覧
  10. ^ 「NVIDIA H100 GPUの詳細:TSMC N4、HBM3、PCIe 5.0、700W TDPなど」TweakTown . 2022年3月23日. 2022年3月31日閲覧
  11. ^ ライアン・スミス(2022年3月22日)「NVIDIA Hopper GPUアーキテクチャとH100アクセラレータ発表:よりスマートに、よりハードに」AnandTech。
  12. ^ ライアン・スミス(2020年5月14日)「NVIDIA Ampereの解放:NVIDIAが新しいGPUアーキテクチャ、A100 GPU、アクセラレータを発表」AnandTech。
  13. ^ 「NVIDIA Tesla V100をテスト:信じられないほどのGPUパワー」TweakTown、2017年9月17日。
  • エアランゲン国立高性能コンピューティング センターのページでは、コンピュータ ノードごとに 4 台および 8 台の A100 を使用した高性能コンピューティングについて説明しており、スイッチ トポロジ ダンプも表示されています。
Retrieved from "https://en.wikipedia.org/w/index.php?title=SXM_(socket)&oldid=1312611474"