並列処理（DSP実装）

デジタル信号処理（DSP）において、並列処理とは、異なるタスク（信号）を同時に処理するために機能ユニットを複製する技術です。^{[1]これにより、異なる}信号に対して、対応する複製された機能ユニットで同じ処理を実行できます。さらに、並列処理の特性により、並列DSP設計では複数の出力が含まれることが多く、非並列DSPよりも高いスループットが得られます。

概念例

機能ユニット（）と3つのタスク（、、）を考えます。機能ユニットがこれらのタスクを処理するのに必要な時間は、それぞれ、、です。そして、これら3つのタスクを順番に実行すると、完了に必要な時間はとなります。 $F_{0}$ $T_{0}$ $T_{1}$ $T_{2}$ $F_{0}$ $t_{0}$ $t_{1}$ $t_{2}$ $t_{0}+t_{1}+t_{2}$

ただし、関数ユニットをさらに 2 つのコピー ( ) に複製すると、合計時間はに短縮され、順次実行する場合よりも短くなります。 $F$ $最大値(t_{0},t_{1},t_{2})$

パイプラインとの比較

機構：

並列: 重複した機能ユニットが並列に動作する
- 各タスクは完全に異なる機能ユニットによって処理されます。
パイプライン: 異なる機能ユニットが並列に動作する
- 各タスクは一連のサブタスクに分割され、専門化された異なる機能ユニットによって処理されます。

客観的：

パイプライン化によりクリティカルパスが短縮され、サンプル速度の向上や同じ速度での消費電力の削減が可能になり、ワットあたりのパフォーマンスが向上します。
並列処理技術では、クロック周期内で並列に計算される複数の出力が必要になります。したがって、実効的なサンプリング速度は並列処理のレベルに応じて向上します。

並列処理とパイプライン技術の両方を適用できるという条件を考えると、以下の理由から並列処理技術を選択する方が良いでしょう。

パイプラインは通常I/Oボトルネックを引き起こす
低速クロック使用時の消費電力削減のために並列処理も活用されている
パイプラインと並列処理のハイブリッド方式により、アーキテクチャの速度がさらに向上します。

並列FIRフィルタ

3タップFIRフィルタを考える: ^[2]

y(n)=ax(n)+bx(n-1)+cx(n-2)

これを次の図に示します。

乗算ユニットの計算時間をT _m、加算ユニットの計算時間をT _aと仮定する。サンプル周期は次のように与えられる。

T_{\text{sample}}\geq T_{m}+2T_{a}

これを並列化すると、結果として得られるアーキテクチャは以下のようになります。サンプルレートは次のようになります。

T_{\text{sample}}\geq {\frac {T_{\text{clock}}}{N}}={\frac {T_{m}+2T_{a}}{3}}

ここで、N はコピー数を表します。

並列システムでは、パイプラインシステムではが保持されることに注意してください。 $T_{\text{sample}}\neq T_{\text{clock}}$ $T_{\text{sample}}=T_{\text{clock}}$

並列1次IIRフィルタ

1次IIRフィルタの伝達関数を次のように定式化する。

H(z)={\frac {z^{-1}}{1-az^{-1}}}

ここで、安定性のために | a | ≤ 1 であり、このようなフィルタにはz = aに位置する 1 つの極のみがあります。

対応する再帰表現は

y(n+1)=ay(n)+u(n)

4並列アーキテクチャ（N = 4）の設計を考えてみましょう。このような並列システムでは、各遅延要素はブロック遅延を意味し、クロック周期はサンプル周期の4倍になります。

したがって、 n = 4 kで再帰を繰り返すと、

y(n+4)=a^{4}y(n)+a^{3}u(n)+a^{2}u(n+1)+au(n+2)+u(n+3)

\rightarrow y(4k+4)=a^{4}y(4k)+a^{3}u(4k)+a^{2}u(4k+1)+au(4k+2)+u(4k+3)

対応するアーキテクチャは次のとおりです。

結果として得られる並列設計には、次の特性があります。

元のフィルタの極はz = aにありますが、並列システムの極はz = a ⁴にあり、これは原点に近くなります。
極の移動により、丸めノイズに対するシステムの堅牢性が向上します。
このアーキテクチャのハードウェアの複雑さ: N × Nの乗算加算演算。

同時実行性と増分計算を活用して繰り返しの計算を回避することで、ハードウェアの複雑さの二乗増加を削減できます。

低消費電力のための並列処理

並列処理技術のもう 1 つの利点は、供給電圧を下げることでシステムの電力消費を削減できることです。

通常の CMOS 回路における次の電力消費を考慮してください。

P_{\text{seq}}=C_{\text{total}}\cdot V_{0}^{2}\cdot f

ここで、C _{total は}CMOS 回路の総容量を表します。

並列バージョンの場合、充電容量は同じままですが、合計容量はN倍に増加します。

同じサンプルレートを維持するために、N並列回路のクロック周期は元の回路の伝播遅延のN倍に増加します。

充電時間はN倍に長くなります。供給電圧はβV ₀まで下げることができます。

したがって、N並列システムの消費電力は次のように表すことができます。

P_{\text{para}}=(NC_{\text{total}})\cdot (\beta V_{0}^{2})\cdot {\frac {f}{N}}=\beta ^{2}P_{\text{seq}

ここでβは次のように計算できる。

N(\beta V_{0}-V_{t})^{2}=\beta (V_{0}-V_{t})^{2}.\,

参考文献

^ KK Parhi, VLSIデジタル信号処理システム：設計と実装, John Wiley, 1999
^ VLSIデジタル信号処理システムのスライド：設計と実装John Wiley＆Sons、1999（ISBN 0-471-24186-5): http://people.ece.umn.edu/~parhi/publications/books/

[1] KK Parhi, VLSIデジタル信号処理システム：設計と実装, John Wiley, 1999

[2] VLSIデジタル信号処理システムのスライド：設計と実装John Wiley＆Sons、1999（ISBN 0-471-24186-5): http://people.ece.umn.edu/~parhi/publications/books/