Pascal(マイクロアーキテクチャ)

Pascal
Pascalアーキテクチャに基づくGTX 1070 Founders Editionグラフィックス
発売2016年5月27日; 9年前 (2016年5月27日
デザイン:エヌビディア
製造元
製造プロセス
コードネームGP10x
製品シリーズ
デスクトップ
プロフェッショナル/ワークステーション
サーバー/データセンター
仕様
L1キャッシュ24KB  (SMあたり)
L2キャッシュ256  KB—4  MB
メモリサポート
PCIeサポートPCIe 3.0
対応グラフィックAPI
DirectXDirectX 12 (12.1)
Direct3DDirect3D 12.0
シェーダーモデルシェーダーモデル 6.7
OpenGLOpenGL 4.6
CUDAコンピューティング能力 6.0
VulkanVulkan 1.3
サポートされているコンピューティングAPI
OpenCLOpenCL 3.0
メディアエンジン
エンコードコーデック
デコードコーデック
カラービット深度
  • 8ビット
  • 10ビット
エンコーダー対応NVENC
ディスプレイ出力
歴史
前身マクスウェル
後継者
サポート状況
2025年11月までの限定サポート、
2028年10月までのセキュリティアップデート[1]
建築の名残であるブレーズ・パスカルの絵画

Pascalは、 Maxwellアーキテクチャの後継としてNvidiaが開発したGPU マイクロアーキテクチャのコードネームです。このアーキテクチャは、2016年4月5日にリリースされたTesla P100(GP100)とともに初めて導入され、主にGeForce 10シリーズで使用されています。GeForce GTX 1080(2016年5月27日)とGTX 1070(どちらもGP104 GPUを使用)は、それぞれ2016年6月10日にリリースされました。Pascalは、TSMC16 nm FinFETプロセス[2] 、その後Samsung14 nm FinFETプロセスを使用して製造されました。[3]  

この建築物は、17 世紀のフランスの数学者および物理学者であるブレーズ・パスカルにちなんで名付けられました。

2019年4月、NvidiaはGTX 1060 6GB以降のPascalベースのカードと16シリーズのカードでDirectX Raytracingのソフトウェア実装を可能にしました。これはそれまでTuringベースのRTXシリーズでのみ可能だった機能です。[4] [5]

詳細

Nvidia Tesla P100カードに使用されているGP100 GPUのダイショット
GeForce GTX 1080 Ti カードに搭載されている GP102 GPU のダイショット
GTX 1060 カードに搭載されている GP106 GPU のダイショット

2014年3月、NVIDIAはMaxwellの後継としてPascalマイクロアーキテクチャを採用すると発表しました。この発表は2016年5月6日に行われ、同年5月27日にリリースされました。Tesla P100(GP100チップ)は、GTX GPU(GP104チップ)とは異なるバージョンのPascalアーキテクチャを採用しています。GP104シェーダーユニットはMaxwellに似た設計となっています。[6]

GP100アーキテクチャの改良点は以下の通りである: [7] [8] [9]

  • Pascalでは、SM(ストリーミングマルチプロセッサ)は、GP100またはGP104に応じて、64~128個のCUDAコアで構成されます。MaxwellSMあたり128個のCUDAコアを搭載し、Keplerは192個、Fermiは32個、Teslaは8個でした。GP100 SMは2つの処理ブロックに分割され、各ブロックには32個の単精度CUDAコア、命令バッファ、ワープスケジューラ、2個のテクスチャマッピングユニット、2個のディスパッチユニットが搭載されています。
  • CUDAコンピューティング機能 6.0。
  • 高帯域幅メモリ2 — 一部のカードには、合計バス幅 4096 ビット、メモリ帯域幅 720 GB/秒の 16 GiB HBM2 が 4 つのスタックに搭載されています。
  • 統合メモリ — CPU と GPU が「ページ移行エンジン」と呼ばれるテクノロジーの助けを借りて、メイン システム メモリとグラフィック カード上のメモリの両方にアクセスできるメモリ アーキテクチャ。
  • NVLink — CPUとGPU間、および複数のGPU間の高帯域幅バス。PCI Expressよりもはるかに高速な転送速度を実現し、80~200GB/秒と推定されています。[10] [11]
  • 16ビット(FP16)浮動小数点演算(俗に「半精度」)は、32ビット浮動小数点演算(俗に「単精度」)の2倍の速度で実行できます[12]。64ビット浮動小数点演算(俗に「倍精度」)は、32ビット浮動小数点演算の半分の速度で実行されます。[13]
  • レジスタの増加 - Maxwell と比較して、CUDA コアあたりのレジスタの数が 2 倍です。
  • より多くの共有メモリ。
  • 動的負荷分散スケジューリングシステム。[14]これにより、スケジューラは複数のタスクに割り当てられるGPUの量を動的に調整し、安全に分散できる作業がなくなった場合を除き、GPUが作業で飽和状態を維持できるようにします。[14]そのため、NVIDIAはPascalのドライバーで非同期コンピューティングを安全に有効化しました。[14]
  • 命令レベルとスレッドレベルのプリエンプション。[15]

GP104アーキテクチャの改良点は以下の通りである。[6]

  • CUDA コンピューティング機能 6.1。
  • GDDR5X — 10Gbit/sのデータレートをサポートする新しいメモリ規格、更新されたメモリコントローラ。[16]
  • 同時マルチプロジェクション - 上流のシェーダステージからSMPエンジンに入る単一のジオメトリストリームの複数のプロジェクションを生成します。[17]
  • ディスプレイポート1.4、HDMI 2.0b。
  • 第4世代デルタカラー圧縮。
  • 拡張 SLI インターフェイス - 以前のバージョンと比較して帯域幅が広い SLI インターフェイス。
  • PureVideo機能セット H ハードウェア ビデオ デコード、HEVC Main10 (10 ビット)、Main12 (12 ビット)、および VP9 ハードウェア デコード。
  • 4K DRM保護コンテンツの再生とストリーミングのためのHDCP 2.2サポート(Maxwell GM200とGM204はHDCP 2.2をサポートしていませんが、GM206はHDCP 2.2をサポートしています)。[18]
  • NVENC HEVC Main10 10ビット ハードウェア エンコーディング。
  • GPUブースト3.0
  • 命令レベルのプリエンプション[15] 。グラフィックスタスクでは、ドライバーはプリエンプションをピクセルレベルに制限します。これは、ピクセルタスクは通常すぐに終了し、ピクセルレベルのプリエンプションを実行するオーバーヘッドコストは命令レベルのプリエンプション(コストが高い)よりも低いためです。[15]計算タスクは、完了までに時間がかかる可能性があり、いつ終了するかが保証されていないため、スレッドレベルまたは命令レベルのプリエンプションを取得します。 [15]そのため、ドライバーはこれらのタスクに対してコストの高い命令レベルのプリエンプションを有効にします。[15]

概要

グラフィックスプロセッサクラスター

チップはグラフィックス・プロセッサ・クラスター(GPC)に分割されます。GP104チップの場合、GPCは5つのSMで構成されます。

ストリーミング・マルチプロセッサ「Pascal」

「ストリーミング・マルチプロセッサ」はAMDのコンピュート・ユニットに類似しています。SMは、GP104チップ上に128個の単精度ALU(「CUDAコア」)を搭載し、GP100チップ上には64個の単精度ALUを搭載しています。すべてのCUバージョンは64個のシェーダプロセッサ(つまり、それぞれ16レーン幅の4つのSIMDベクターユニット)で構成されていますが、NVIDIAは非常に異なる数のCUDAコアで実験を行いました

  • テスラでは、1つのSMが8つの単精度(FP32)シェーダプロセッサを組み合わせている。
  • Fermiでは、1つのSMが32個の単精度(FP32)シェーダプロセッサを組み合わせている。
  • Keplerでは、1つのSMが192個の単精度(FP32)シェーダプロセッサと64個の倍精度(FP64)ユニット(GK110 GPU上)を組み合わせています。
  • Maxwellでは、1つのSMが128個の単精度(FP32)シェーダプロセッサを組み合わせます。
  • Pascal では、次のようになります:
    • GP100では、1つのSMに64個の単精度(FP32)シェーダプロセッサと32個の倍精度(FP64)プロセッサが統合されており、単精度と倍精度のスループット比は2:1です。GP100は、より柔軟なFP32コアを採用しており、2要素ベクトルで1つの単精度数または2つの半精度数を処理できます。[19]これは、機械学習タスクへの対応を向上させることを目的としています
    • GP104 では、1 つの SM が 128 個の単精度 ALU、4 個の倍精度 ALU (32:1 の比率)、および 2 つの半精度浮動小数点数のベクトルを含む 1 つの半精度 ALU を組み合わせ、両方の浮動小数点数で同じ命令を実行できるため、両方の要素で同じ命令が使用される場合は 64:1 の比率になります。

ポリモーフエンジン 4.0

ポリモーフエンジンバージョン4.0は、テッセレーションを担当するユニットです。機能的にはAMDのジオメトリックプロセッサに対応しています。1つのポリモーフエンジンがTPC内の複数のSMにデータを供給できるように、シェーダーモジュールからTPCに移動されました。[20]

チップ

GTX 1080 TiのPCBとダイ
  • GP100:NVIDIAのTesla P100 GPUアクセラレータは、FP64倍精度演算やFP16を使用するディープラーニングトレーニングなどのGPGPUアプリケーションを対象としています。HBM2メモリを使用します。[21] Quadro GP100もGP100 GPUを使用しています
  • GP102:このGPUは、Titan Xp [22] 、 Titan X Pascal [23]、GeForce GTX 1080 Tiに搭載されています。また、Quadro P6000 [24]とTesla P40 [25]にも搭載されています。
  • GP104:このGPUは、GeForce GTX 1070、GTX 1070 Ti、GTX 1080、および一部のGTX 1060 6GBに搭載されています。GTX 1070は15/20個のSMが、GTX 1070 Tiは19/20個のSMが有効化されており、どちらもGDDR5メモリを使用しています。GTX 1080は完全にアンロックされたチップで、GDDR5Xメモリを使用しています。一部のGTX 1060 6GBは、10/20個のSMが有効化されGDDR5Xメモリを搭載したGP104を使用しています。[26]また、Quadro P5000、Quadro P4000、Quadro P3200(モバイルアプリケーション)、およびTesla P4にも搭載されています。
  • GP106: このGPUはGDDR5 [27]メモリを搭載したGeForce GTX 1060で使用されています[28] [29] Quadro P2000でも使用されています。
  • GP107:このGPUは、GeForce GTX 1050および1050 Tiに搭載されています。また、Quadro P1000、Quadro P600、Quadro P620、Quadro P400にも搭載されています。
  • GP108: この GPU は、GeForce GT 1010 および GeForce GT 1030 で使用されます。
Kepler、Maxwell、Pascalチップの比較表
GK104GK110GM204 (GTX 970)GM204 (GTX 980)GM200GP104GP100
SMごとに専用のテクスチャキャッシュ48KiB
SMあたりのテクスチャ(グラフィックスまたはコンピューティング)または読み取り専用データ(コンピューティングのみ)キャッシュ48 KiB [30]
プログラマが選択可能な共有メモリ/SMごとのL1パーティション48 KiB共有メモリ + 16 KiB L1キャッシュ(デフォルト)[31]48 KiB共有メモリ + 16 KiB L1キャッシュ(デフォルト)[31]
32 KiB 共有メモリ + 32 KiB L1 キャッシュ[31]32 KiB 共有メモリ + 32 KiB L1 キャッシュ[31]
16 KiB 共有メモリ + 48 KiB L1 キャッシュ[31]16 KiB 共有メモリ + 48 KiB L1 キャッシュ[31]
SM ごとの統合 L1 キャッシュ/テクスチャ キャッシュ48 KiB [32]48 KiB [32]48 KiB [32]48 KiB [32]24 KiB [32]
SMごとの専用共有メモリ96 KiB [32]96 KiB [32]96 KiB [32]96 KiB [32]64 KiB [32]
チップあたりのL2キャッシュ512 KiB [32]1536 KiB [32]1792 KiB [33]2048 KiB [33]3072 KiB [32]2048 KiB [32]4096 KiB [32]

パフォーマンス

Pascal GPUの理論的な単精度処理能力(GFLOPS)は、2 × FMA命令あたり、CUDAコアあたり、サイクルあたり、CUDAコア数あたり、コアクロック速度(GHz)として計算されます

Pascal GPU の理論上の倍精度処理能力は、Nvidia GP100 の単精度パフォーマンスの 1/2、Nvidia GP102、GP104、GP106、GP107、GP108 の 1/32 です。

Pascal GPUの理論的な半精度処理能力は、GP100では単精度性能の2倍[13]、GP104、GP106、GP107、GP108では1/64です。[19]

後継者

Pascalアーキテクチャは、2017年にHPCクラウドコンピューティング自動運転車市場でVoltaに、2018年にはコンシューマーおよびビジネス市場でTuringに後継されました。 [34]

P100アクセラレータとDGX-1

DGXで使用されるアクセラレータの比較: [35] [36] [37]

モデルアーキテクチャソケットFP32
CUDA
コア
FP64 コア
(Tensor を除く)

INT32/FP32
コアの混合
INT32
コア
ブースト
クロック
メモリ
クロック
メモリ
バス幅
メモリ
帯域幅
VRAM 単精度(FP32)

倍精度(
FP64
INT8
(非テンソル)
INT8
稠密テンソル
INT32FP4
密テンソル
FP16FP16
稠密テンソル
bfloat16
稠密テンソル
TensorFloat-32
(TF32)
密テンソル
FP64
密テンソル
インターコネクト
(NVLink)
GPUL1キャッシュL2キャッシュTDPダイサイズトランジスタ
プロセス発売
P100PascalSXM/SXM235841792該当なし該当なし1480 MHz1.4 Gbit/s HBM24096ビット720GB/秒16GB HBM210.6TFLOPS5.3TFLOPS該当なし該当なし該当なし該当なし21.2 TFLOPS該当なし該当なし該当なし該当なし160 GB/秒GP1001344 KB (24 KB × 56)4096 KB300 W610 mm²15.3 BTSMC 16FF+2016年第2四半期
V100 16GBボルタSXM251202560該当なし51201530 MHz1.75 Gbps HBM24096ビット900 GB/秒16GB HBM215.7 TFLOPS7.8 TFLOPS62 TOPS該当なし15.7 TOPS該当なし31.4 TFLOPS125TFLOPS該当なし該当なし該当なし300GB/秒GV10010240KB (128KB × 80)6144 KB300 W815 mm²21.1 BTSMC 12FFN2017年第3四半期
V100 32GBボルタSXM351202560該当なし51201530 MHz1.75 Gbps HBM24096ビット900 GB/秒32GB HBM215.7 TFLOPS7.8 TFLOPS62 TOPS該当なし15.7 TOPS該当なし31.4 TFLOPS125TFLOPS該当なし該当なし該当なし300GB/秒GV10010240KB (128KB × 80)6144 KB350W815 mm²21.1 BTSMC 12FFN
A100 40GBアンペアSXM4691234566912該当なし1410 MHz2.4 Gbit/s HBM25120ビット1.52TB/秒40GB HBM219.5TFLOPS9.7テラフロップス該当なし624トップ19.5トップ該当なし78テラフロップス312 TFLOPS312 TFLOPS156 TFLOPS19.5TFLOPS600 GB/秒GA10020736 KB (192 KB × 108)40960 KB400 W826 mm²54.2 TSMC N72020年第1四半期
A100 80GBアンペアSXM4691234566912該当なし1410 MHz3.2 Gbit/s HBM2e5120ビット1.52TB/秒80 GB HBM2e19.5TFLOPS9.7テラフロップス該当なし624トップ19.5トップ該当なし78テラフロップス312 TFLOPS312 TFLOPS156 TFLOPS19.5TFLOPS600 GB/秒GA10020736 KB (192 KB × 108)40960 KB400 W826 mm²54.2 TSMC N7
H100ホッパーSXM516896460816896該当なし1980 MHz5.2 Gbps HBM35120ビット3.35 TB/秒80 GB HBM367 TFLOPS34 TFLOPS該当なし1.98 POPS該当なし該当なし該当なし990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/秒GH10025344KB (192KB × 132)51200KB700W814mm²80BTSMC 4N2022年第3四半期
H200ホッパーSXM516896460816896該当なし1980 MHz6.3 Gbit/s HBM3e6144ビット4.8TB/秒141GB HBM3e67 TFLOPS34 TFLOPS該当なし1.98 POPS該当なし該当なし該当なし990 TFLOPS990 TFLOPS495 TFLOPS67 TFLOPS900 GB/秒GH10025344KB (192KB × 132)51200KB1000W814mm²80BTSMC 4N2023年第3四半期
B100ブラックウェルSXM6該当なし該当なし該当なし該当なし該当なし8ギガビット/秒 HBM3e8192ビット8TB/秒192 GB HBM3e該当なし該当なし該当なし3.5 POPS該当なし7 PFLOPS該当なし1.98 PFLOPS1.98 PFLOPS989 TFLOPS30TFLOPS1.8TB/秒GB100該当なし該当なし700W該当なし208BTSMC 4NP2024年第4四半期
B200ブラックウェルSXM6該当なし該当なし該当なし該当なし該当なし8ギガビット/秒 HBM3e8192ビット8TB/秒192 GB HBM3e該当なし該当なし該当なし4.5 POPS該当なし9 PFLOPS該当なし2.25 PFLOPS2.25 PFLOPS1.2 PFLOPS40 TFLOPS1.8TB/秒GB100該当なし該当なし1000W該当なし208BTSMC 4NP

参照

参考文献

  1. ^ Kampman, Jeffrey (2025年7月31日). 「NVIDIA、MaxwellおよびPascal GPUのGame Readyドライバーサポート終了を発表 — 影響を受ける製品は2025年10月まで最適化されたドライバーを入手できます」. Tom's Hardware . 2025年8月21日閲覧
  2. ^ 「NVIDIA 7nm次世代GPUはTSMCが製造」Wccftech、2018年6月24日。 2019年7月6日閲覧
  3. ^ 「Samsung、NVIDIA「Pascal」を14nmに光学式縮小へ」 。 2016年8月13日閲覧
  4. ^ 「リアルタイム レイ トレーシング エコシステムの高速化: GeForce RTX および GeForce GTX 向け DXR」。NVIDIA
  5. ^ 「レイトレーシングがNvidia GTX GPUに登場:有効化方法」2019年4月11日。
  6. ^ ab "NVIDIA GeForce GTX 1080" (PDF) . International.download.nvidia.com . 2016年9月15日閲覧
  7. ^ Gupta, Sumit (2014年3月21日). 「NVIDIA、GPUロードマップを更新、Pascalを発表」Blogs.nvidia.com . 2014年3月25日閲覧
  8. ^ “Parallel Forall”. NVIDIA Developer Zone . Devblogs.nvidia.com. 2014年3月26日時点のオリジナルよりアーカイブ。 2014年3月25日閲覧
  9. ^ 「NVIDIA Tesla P100」(PDF)International.download.nvidia.com2016年9月15日閲覧
  10. ^ 「Inside Pascal: NVIDIA の最新コンピューティング プラットフォーム」2016 年 4 月 5 日。
  11. ^ Denis Foley (2014年3月25日). 「NVLink、Pascal、スタックメモリ:ビッグデータへの需要を満たす」nvidia.com . 2014年7月7日閲覧
  12. ^ 「NVIDIAの次世代Pascal GPUアーキテクチャはディープラーニングアプリを10倍高速化」。NVIDIA公式ブログ2015年3月23日閲覧。
  13. ^ ab Smith, Ryan (2015年4月5日). 「NVIDIA、Tesla P100アクセラレータを発表 - Pascal GP100のHPC向けパワー」AnandTech。2016年4月6日時点のオリジナルよりアーカイブ。 2016年5月27日閲覧これらのSMにはそれぞれ32個のFP64 CUDAコアが搭載されており、FP64の半分のレートを実現しています。また、Pascalアーキテクチャの新機能として、適切な状況下では1個のFP32 CUDAコア内に2つのFP16演算を詰め込むことができます。
  14. ^ abc Smith, Ryan (2016年7月20日). 「NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions レビュー:FinFET世代の幕開け」AnandTech 9ページ. 2016年7月23日時点のオリジナルよりアーカイブ。 2016年7月21日閲覧
  15. ^ abcde Smith, Ryan (2016年7月20日). 「NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions レビュー:FinFET世代の幕開け」AnandTech 10ページ. 2016年7月24日時点のオリジナルよりアーカイブ。 2016年7月21日閲覧
  16. ^ 「GTX 1080 グラフィックカード」GeForce . 2016年9月15日閲覧
  17. ^ Carbotte, Kevin (2016年5月17日). 「Nvidia GeForce GTX 1080 Simultaneous Multi-Projection & Async Compute」. Tomshardware.com . 2016年9月15日閲覧
  18. ^ 「Nvidia Pascal HDCP 2.2」。Nvidiaハードウェアページ。 2016年5月8日閲覧
  19. ^ ab Smith, Ryan (2016年7月20日). 「NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions レビュー:FinFET世代の幕開け」AnandTech 5ページ. 2016年7月23日時点のオリジナルよりアーカイブ。 2016年7月21日閲覧
  20. ^ Smith, Ryan (2016年7月20日). 「NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions レビュー:FinFET世代の幕開け」AnandTech 4ページ. 2016年7月23日時点のオリジナルよりアーカイブ。 2016年7月21日閲覧
  21. ^ Harris, Mark (2016年4月5日). 「Inside Pascal: NVIDIAの最新コンピューティングプラットフォーム」Parallel Forall . Nvidia . 2016年6月3日閲覧
  22. ^ 「Pascalアーキテクチャ搭載NVIDIA TITAN Xpグラフィックカード」。NVIDIA
  23. ^ 「NVIDIA TITAN X グラフィックスカード(Pascal 搭載)」GeForce . 2016年9月15日閲覧
  24. ^ 「Pascalアーキテクチャを基盤とする新しいQuadroグラフィックス」。NVIDIA 。 2016年9月15日閲覧
  25. ^ 「GPUによるデータセンターワークロードの高速化」NVIDIA . 2016年9月15日閲覧
  26. ^ Zhiye Liu (2018年10月22日). 「Nvidia GeForce GTX 1060、5回目の刷新でGDDR5Xにアップグレード」. Tom's Hardware . 2024年2月2日閲覧。
  27. ^ 「NVIDIA GeForce 10 シリーズ グラフィック カード」。NVIDIA
  28. ^ 「NVIDIA GeForce GTX 1060、7月7日に発売」VideoCardz.com 2016年6月29日. 2016年9月15日閲覧
  29. ^ 「GTX 1060 グラフィックカード」GeForce . 2016年9月15日閲覧
  30. ^ Smith, Ryan (2012年11月12日). 「NVIDIAがTesla K20とK20Xを発表:GK110がついに登場」AnandTech . p. 3. 2012年11月14日時点のオリジナルよりアーカイブ。 2016年7月24日閲覧
  31. ^ abcdef Nvidia (2015年9月1日). 「CUDA Cプログラミングガイド」 . 2016年7月24日閲覧
  32. ^ abcdefghijklmno トリオレ、ダミアン (2016 年 5 月 24 日)。 「Nvidia GeForce GTX 1080、プレミア GPU 16nm をテスト中!」。Hardware.fr (フランス語)。 p. 22016 年7 月 24 日に取得
  33. ^ ab Smith, Ryan (2015年1月26日). 「GeForce GTX 970: スペックの修正とメモリ割り当ての調査」AnandTech 1ページ. 2015年1月28日時点のオリジナルよりアーカイブ。 2016年7月24日閲覧
  34. ^ 「NVIDIA Turing リリース日」。Techradar 2021年2月2日。
  35. ^ ライアン・スミス(2022年3月22日)「NVIDIA Hopper GPUアーキテクチャとH100アクセラレータ発表:よりスマートに、よりハードに」AnandTech。
  36. ^ ライアン・スミス(2020年5月14日)「NVIDIA Ampereの解放:NVIDIAが新しいGPUアーキテクチャ、A100 GPU、アクセラレータを発表」AnandTech。
  37. ^ 「NVIDIA Tesla V100をテスト:信じられないほどのGPUパワー」TweakTown、2017年9月17日。
「https://en.wikipedia.org/w/index.php?title=Pascal_(microarchitecture)&oldid=1322181161」より取得