偏相関

確率論と統計学において、偏相関は、一連の制御ランダム変数の影響を除いた、2 つのランダム変数間の関連の度合いを測定します。2 つの関心変数間の数値的関係を決定する際に相関係数を使用すると、両方の関心変数に数値的に関連する別の交絡変数がある場合、誤った結果が生じます。この誤った情報は、交絡変数を制御することで回避でき、これは偏相関係数を計算することで行います。これがまさに、重回帰分析に他の右側の変数を含める理由です。ただし、重回帰分析では効果サイズに偏りのない結果が得られますが、2 つの関心変数間の関係の強さを数値的に表す指標は得られません。

例えば、様々な個人の消費、所得、富に関する経済データを用いて、消費と所得の関係を考えてみましょう。消費と所得の相関係数を計算する際に富を考慮に入れないと、誤った結果が生じる可能性があります。所得は富と数値的に関連している可能性があり、富は消費と数値的に関連している可能性があるからです。つまり、測定された消費と所得の相関関係は、実際にはこれらの他の相関関係によって汚染されている可能性があります。偏相関を用いることで、この問題を回避できます。

相関係数と同様に、偏相関係数は -1 から 1 までの範囲の値を取ります。値 -1 は、いくつかの変数を制御した完全な負の相関 (つまり、一方の変数の値が高くなると、もう一方の変数の値が低くなる正確な線形関係) を表します。値 1 は完全な正の線形関係を表します。値 0 は線形関係がないことを示します。

偏相関は、確率変数が多変量正規分布、その他の楕円分布、多変量超幾何分布、多変量負超幾何分布、多項分布、またはディリクレ分布に従って分布する場合に条件付き相関と一致するが、それ以外の場合には一般には一致しない。^[1]

正式な定義

正式には、 n個の制御変数Z = { Z ₁ , Z ₂ , ..., Z _n }を与えられたときのXとYの偏相関（ρ _XY_·_Zと表記）は、 XとZの線形回帰、およびYとZの線形回帰からそれぞれ得られる残差e _Xとe _Yの相関です。1次偏相関（つまり、n = 1の場合）は、相関と、除去可能な相関の積を、除去可能な相関の疎外係数の積で割った差です。疎外係数、および相関を介した共分散との関係については、Guilford (1973, pp. 344–345) に記載されています。^[2]

計算

線形回帰の使用

あるデータの標本偏相関を計算する簡単な方法は、2つの関連する線形回帰問題を解き、残差間の相関を計算することである。XとYを実数値をとる確率変数とし、Zをn次元ベクトル値確率変数とする。x i _、 y _i、z _iは、実数確率変数X、Y、Zの結合確率分布におけるi番目のiid観測値を表すものとする。ここで、z _iには回帰における定数項を考慮に入れるため1が加えられている。線形回帰問題を解くことは、次の式を満たす( n +1)次元回帰係数ベクトルとを求めることに相当する。 $N$ $\mathbf {w} _{X}^{*}$ $\mathbf {w} _{Y}^{*}$

\mathbf {w} _{X}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(x_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\}

\mathbf {w} _{Y}^{*}=\arg \min _{\mathbf {w} }\left\{\sum _{i=1}^{N}(y_{i}-\langle \mathbf {w} ,\mathbf {z} _{i}\rangle )^{2}\right\}

ここで、は観測数、はベクトルとの間のスカラー積です。 $N$ $\langle \mathbf {w} ,\mathbf {z} _{i}\rangle$ $\mathbf {w}$ $\mathbf {z} _{i}$

残差は

e_{X,i}=x_{i}-\langle \mathbf {w} _{X}^{*},\mathbf {z} _{i}\rangle

e_{Y,i}=y_{i}-\langle \mathbf {w} _{Y}^{*},\mathbf {z} _{i}\rangle

そして、標本偏相関は標本相関の通常の式で与えられますが、これらの新しく導出された値の間では次のようになります。

{\begin{aligned}{\hat {\rho }}_{XY\cdot \mathbf {Z} }&={\frac {N\sum _{i=1}^{N}e_{X,i}e_{Y,i}-\sum _{i=1}^{N}e_{X,i}\sum _{i=1}^{N}e_{Y,i}}{{\sqrt {N\sum _{i=1}^{N}e_{X,i}^{2}-\left(\sum _{i=1}^{N}e_{X,i}\right)^{2}}}~{\sqrt {N\sum _{i=1}^{N}e_{Y,i}^{2}-\left(\sum _{i=1}^{N}e_{Y,i}\right)^{2}}}}}\\&={\frac {N\sum _{i=1}^{N}e_{X,i}e_{Y,i}}{{\sqrt {N\sum _{i=1}^{N}e_{X,i}^{2}}}~{\sqrt {N\sum _{i=1}^{N}e_{Y,i}^{2}}}}}.\end{aligned}}

最初の式では、マイナス記号の後の 3 つの項はすべて 0 になります。これは、各項に通常の最小二乗回帰からの残差の合計が含まれているためです。

例

3 つの変数X、Y、Zに関する次のデータを考えてみます。

X	はい	Z
2	1	0
4	2	0
15	3	1
20	4	1

変数XとY間のピアソン相関係数を計算すると約0.970となり、上記の式を用いてXとY間の偏相関を計算すると0.919となります。計算はRを用いて以下のコードで行いました。

> x <- c ( 2 , 4 , 15 , 20 ) > y <- c ( 1 , 2 , 3 , 4 ) > z <- c ( 0 , 0 , 1 , 1 )               # x を z に回帰し、残差を計算する> res_x <- lm ( x ~ z ) $ residuals    # yをzに回帰し、残差を計算する> res_y <- lm ( y ~ z ) $ residuals    # 残差の相関を計算する> cor ( res_x , res_y ) # [1] 0.919145 # xとyの相関とは異なることを示す> cor ( x , y ) # [1] 0.9695016 # 一般化偏相関を計算する> generalCorr :: parcorMany ( cbind ( x , y , z ) ) # nami namj partij partji rijMrji # [1,] "x" "y" "0.8844" "1" "-0.1156" # [2,] "x" "z" "0.1581" "1" "-0.8419"

上記コードの下部は、Zの非線形効果を除いた後のXとYの間の一般化非線形偏相関係数が0.8844であると報告しています。また、 Yの非線形効果を除いた後のXとZの間の一般化非線形偏相関係数は0.1581です。詳細は、Rパッケージ「generalCorr」とそのvignettesを参照してください。シミュレーションおよびその他の詳細は、Vinod (2017)「Generalized correlation and kernel causality with applications in development economics」、Communications in Statistics - Simulation and Computation、vol. 46、[4513, 4534]（2015年12月29日オンライン公開、URL https://doi.org/10.1080/03610918.2015.1122048）に記載されています。

再帰式の使用

線形回帰問題を解くには、計算コストが高くなる場合があります。実際には、n次の偏相関（つまり、| Z | = n ）は、3つの( n - 1)次の偏相関から簡単に計算できます。0次の偏相関ρ _{XY ·Øは、通常の}相関係数 ρ _XYと定義されます。

これは、[ ^3] $Z_{0}\in \mathbf {Z} ,$

\rho _{XY\cdot \mathbf {Z} }={\frac {\rho _{XY\cdot \mathbf {Z} \setminus \{Z_{0}\}}-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}}{{\sqrt {1-\rho _{XZ_{0}\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}{\sqrt {1-\rho _{Z_{0}Y\cdot \mathbf {Z} \setminus \{Z_{0}\}}^{2}}}}}

この計算を再帰アルゴリズムとして単純に実装すると、指数時間計算量はとなります。しかし、この計算には重複部分問題という性質があり、動的計画法を用いるか、単に再帰呼び出しの結果をキャッシュするだけで、計算量はとなります。 ${\mathcal {O}}(n^{3})$

Zが単一変数の場合、これは次のように簡約される: ^[要引用]

\rho _{XY\cdot Z}={\frac {\rho _{XY}-\rho _{XZ}\rho _{ZY}}{{\sqrt {1-\rho _{XZ}^{2}}}{\sqrt {1-\rho _{ZY}^{2}}}}}

逆行列の使用

偏相関は、結合精度行列を用いて表すこともできます。濃度nの確率変数の集合を考えます。2つの変数と、他のすべての変数、すなわちが与えられたときの偏相関を求めます。（結合/完全）共分散行列が正定値であり、したがってが逆行列であると仮定します。精度行列がと定義されると、 $\mathbf {V} ={X_{1},\dots ,X_{n}}$ $X_{i}$ $X_{j}$ $\mathbf {V} \setminus \{X_{i},X_{j}\}$ $\Sigma =(\sigma _{ij})$ $\Omega =(p_{ij})=\Sigma ^{-1}$

\rho _{X_{i}X_{j}\cdot \mathbf {V} \setminus \{X_{i},X_{j}\}}=-{\frac {p_{ij}}{\sqrt {p_{ii}p_{jj}}}}

1

これを計算するには、共分散行列の逆行列が必要です。これは時間とともに実行されます（標本共分散行列を用いて標本偏相関を求めます）。内の変数ペア間の偏相関をすべて求めるには、1回の逆行列計算のみで十分であることに注意してください。 $\Sigma ^{-1}$ $\Sigma$ ${\mathcal {O}}(n^{3})$ $\mathbf {V}$

式（ 1 ）を証明するには、前の表記（すなわち）に戻り、偏相関の定義から始めます。ρXY · _Z_は_、_Xと_Zの線形回帰から得られる残差eXと、YとZの線形回帰から得られる残差eYの相関です。 $X,Y,\mathbf {Z} \leftrightarrow X_{i},X_{j},\mathbf {V} \setminus \{X_{i},X_{j}\}$

まず、線形回帰の係数を仮定します。つまり、 $\beta ,\gamma$

\beta =\operatorname {argmin} _{\beta }\mathbb {E} \|X-\beta ^{T}Z\|^{2}

\gamma =\operatorname {argmin} _{\gamma }\mathbb {E} \|Y-\gamma ^{T}Z\|^{2}

ベクトルの共分散行列を次のように書きます。 $(X,Y,Z^{T})^{T}$

\Sigma ={\begin{bmatrix}\Sigma _{XX}&\Sigma _{XY}&\Sigma _{XZ}\\\Sigma _{YX}&\Sigma _{YY}&\Sigma _{YZ}\\\Sigma _{ZX}&\Sigma _{ZY}&\Sigma _{ZZ}\end{bmatrix}}={\begin{bmatrix}C_{11}&C_{12}\\C_{21}&C_{22}\\\end{bmatrix}}

ここで、線形回帰の標準的な式は次のようになる。 $C_{11}={\begin{bmatrix}\Sigma _{XX}&\Sigma _{XY}\\\Sigma _{YX}&\Sigma _{YY}\end{bmatrix}},\qquad C_{12}={\begin{bmatrix}\Sigma _{XZ}\\\Sigma _{YZ}\end{bmatrix}},\qquad C_{21}={\begin{bmatrix}\Sigma _{ZX}&\Sigma _{ZY}\end{bmatrix}},\qquad C_{22}=\Sigma _{ZZ}$

\beta =\left(\Sigma _{ZZ}\right)^{-1}\Sigma _{ZX}

したがって、残差は次のように表される。

R_{X}=X-\beta ^{T}Z=X-\Sigma _{XZ}\left(\Sigma _{ZZ}\right)^{-1}Z

には切片項が含まれているため、期待値はゼロとなることに注意する。共分散を計算すると、 $R_{X}$ $Z$

\operatorname {Cov} (R_{X},R_{Y})=\mathbb {E} (R_{X},R_{Y})=\dots =\Sigma _{XY}-\Sigma _{XZ}\left(\Sigma _{ZZ}\right)^{-1}\Sigma _{ZY}

2

次に、精度行列を同様のブロック形式で記述します。 $\Omega =\Sigma ^{-1}$

\Omega ={\begin{bmatrix}\Omega _{XX}&\Omega _{XY}&\Omega _{XZ}\\\Omega _{YX}&\Omega _{YY}&\Omega _{YZ}\\\Omega _{ZX}&\Omega _{ZY}&\Omega _{ZZ}\end{bmatrix}}={\begin{bmatrix}P_{11}&P_{12}\\P_{21}&P_{22}\\\end{bmatrix}}

そして、ブロック行列逆行列のシュアーの公式により、

P_{11}^{-1}=C_{11}-C_{12}C_{22}^{-1}C_{21}

右辺の行列の要素は、（２）で計算した共分散と全く同じであり、

P_{11}^{-1}={\begin{bmatrix}\operatorname {Cov} (R_{X},R_{X})&\operatorname {Cov} (R_{X},R_{Y})\\\operatorname {Cov} (R_{Y},R_{X})&\operatorname {Cov} (R_{Y},R_{Y})\\\end{bmatrix}}

2×2行列の逆行列の公式を用いると、

{\begin{aligned}P_{11}^{-1}&={\frac {1}{{\text{det}}P_{11}}}{\begin{pmatrix}[P_{11}]_{22}&-[P_{11}]_{12}\\-[P_{11}]_{21}&[P_{11}]_{11}\\\end{pmatrix}}\\&={\frac {1}{{\text{det}}P_{11}}}{\begin{pmatrix}p_{YY}&-p_{XY}\\-p_{YX}&p_{XX}\\\end{pmatrix}}\end{aligned}}

つまり、部分相関は

\rho _{XY\cdot Z}={\frac {\operatorname {Cov} (R_{X},R_{Y})}{\sqrt {\operatorname {Cov} (R_{X},R_{X})\operatorname {Cov} (R_{Y},R_{Y})}}}={\frac {-{\tfrac {1}{{\text{det}}P_{11}}}p_{XY}}{\sqrt {{\tfrac {1}{{\text{det}}P_{11}}}p_{XX}{\tfrac {1}{{\text{det}}P_{11}}}p_{YY}}}}=-{\frac {p_{XY}}{\sqrt {p_{XX}p_{YY}}}}

（１ ）に記載の通り。

解釈

幾何学的な

3つの変数X、Y、Z（Zは「制御変数」または「追加変数」）を、n 個の変数V上の結合確率分布から選択する。さらに、v _i（ 1 ≤ i ≤ N ）を、V上の結合確率分布から得られた N 個の n 次元 iid 観測値とする。幾何学的な解釈は、N次元ベクトルx （観測値全体にわたるXの連続値によって形成される）、 y （ Yの値によって形成される）、およびz （ Zの値によって形成される）を考慮することで得られる。

XからZへの線形回帰から得られる残差e _X,iは、 N次元ベクトルe _X（添付のグラフではr _Xと表記）と見なすと、 Zによって生成されるベクトルzとのスカラー積がゼロになることが示される。これは、残差ベクトルがzに垂直な( N –1) 次元超平面S _z上に存在することを意味する。

同じことが残差e _Y,iにも当てはまり、ベクトルe _Yが生成される。望ましい偏相関は、xとyのそれぞれzに垂直な超平面への投影e _Xとe _Y間の角度φの余弦となる。^[4]^{：ch. 7}

条件付き独立性検定として

関係するすべての変数が多変量ガウス分布であると仮定すると、偏相関ρXY _·_Z_は、 Zが与えられた場合にXがYから条件付きで独立している場合にのみゼロになる。^[1]この特性は一般的な場合には当てはまらない。

標本の偏相関が真の母集団の偏相関が 0 と異なることを意味するかどうかをテストするには、偏相関のフィッシャーの z 変換を使用できます。 ${\hat {\rho }}_{XY\cdot \mathbf {Z} }$

z({\hat {\rho }}_{XY\cdot \mathbf {Z} })={\frac {1}{2}}\ln \left({\frac {1+{\hat {\rho }}_{XY\cdot \mathbf {Z} }}{1-{\hat {\rho }}_{XY\cdot \mathbf {Z} }}}\right)

帰無仮説は、両側対立仮説に対して検定される。棄却できるのは、 $H_{0}:\rho _{XY\cdot \mathbf {Z} }=0$ $H_{A}:\rho _{XY\cdot \mathbf {Z} }\neq 0$ $H_{0}$

{\sqrt {N-|\mathbf {Z} |-3}}\cdot |z({\hat {\rho }}_{XY\cdot \mathbf {Z} })|>\Phi ^{-1}(1-\alpha /2)

ここで、は平均0 、標準偏差1のガウス分布の累積分布関数、はの有意水準、は標本サイズである。このz変換は近似値であり、標本（偏）相関係数の実際の分布は単純ではない。しかし、偏回帰係数、偏相関係数、および偏分散の組み合わせに基づく正確なt検定は利用可能である。^[5] $\Phi$ $\alpha$ $H_{0}$ $N$

標本偏相関の分布はフィッシャーによって記述された。^[6]

半偏相関（部分相関）

半偏相関（または部分相関）統計量は偏相関統計量に似ており、どちらも特定の要因をコントロールした上で2つの変数の変動を比較します。ただし、半偏相関を計算するには、XまたはYのいずれか一方について3番目の変数を一定に保ちますが、両方について一定に保つ必要はありません。一方、偏相関を計算するには、3番目の変数を両方について一定に保ちます。^{[7]半偏相関は、一方の変数の固有の変動（}Z変数に関連する変動を除去後）を、もう一方の変数のフィルタリングされていない変動と比較します。一方、偏相関は、一方の変数の固有の変動を、もう一方の変数の固有の変動と比較します。

半偏相関は、「従属（応答）変数の全体的な変動性に合わせて（つまり、相対的に）尺度化されているため」、より実用的に関連すると考えられる。^[8]逆に、独立変数の独自の寄与の役割について正確性が低いため、理論的にはそれほど有用ではない。

XとYの半偏相関の絶対値は、常にXとYの偏相関の絶対値以下になります。その理由は、XとZの相関がXから除去され、残差ベクトルe _xが得られると仮定します。半偏相関を計算すると、Y には依然として固有の分散とZとの関連による分散の両方が含まれます。しかし、e _{x は}Zと無相関であるため、 Yの分散の固有の部分の一部しか説明できず、 Zに関連する部分は説明できません。対照的に、偏相関ではe _y ( Yの分散のうちZに関連しない部分) のみが説明されるため、 e _exで説明できないタイプの分散は少なくなります。

時系列分析での使用

時系列解析では、時系列の偏自己相関関数（「偏相関関数」と呼ばれることもある）は、ラグに対して次のように定義される^[^{引用が必要}^] $h$

\varphi (h)=\rho _{X_{0}X_{h}\,\cdot \,\{X_{1},\,\dots \,,X_{h-1}\}}

この関数は、自己回帰の適切なラグの長さを決定するために使用されます。

収縮との部分相関

標本サイズが変数の数よりも小さい場合、つまり高次元設定の場合、偏相関の推定は困難になる可能性があります。このようなシナリオでは、標本共分散は条件付けされておらず、その逆関数を求めることが困難になります。 ${\hat {\Sigma }}$ ${\hat {\Omega }}$

収縮推定法は、またはを改善し、より信頼性の高い偏相関推定値を生成します。一例として、Ledoit-Wolf収縮推定量^{[9]が挙げられます。} ${\hat {\Sigma }}$ ${\hat {\Omega }}$

{\hat {\Sigma }}^{[\lambda ]}=\lambda T+(1-\lambda )\Sigma

ここで、は標本共分散行列、はターゲット行列（対角行列など）、は収縮強度です。 ${\hat {\Sigma }}$ $T$ $\lambda \in (0,1)$

Ledoit-Wolf収縮^[10]による偏相関は次のようになる。

{\hat {P}}_{ij}^{[\lambda ]}={\frac {{\hat {\Omega }}_{ij}^{[\lambda ]}}{\sqrt {{\hat {\Omega }}_{ii}^{[\lambda ]}{\hat {\Omega }}_{jj}^{[\lambda ]}}}}

ここではの逆数である。この手法は金融やゲノミクスなど様々な分野で利用されている。^[11] ${\hat {\Omega }}_{ij}^{[\lambda ]}$ ${\hat {\Sigma }}_{ij}^{[\lambda ]}$

参照

参考文献

^ ab 馬場国弘;柴田李亭;渋谷正明（2004）。「条件付き独立性の尺度としての偏相関と条件付き相関」。オーストラリアおよびニュージーランド統計ジャーナル。46 (4): 657–664 .土井:10.1111/j.1467-842X.2004.00360.x。S2CID 123130024。
^ Guilford JP, Fruchter B. (1973). 『心理学と教育における基礎統計学』東京: McGraw-Hill工学社.
^ Kim, Seongho (2015年11月). 「ppcor: 半偏相関係数の高速計算のためのRパッケージ」. Communications for Statistical Applications and Methods . 22 (6): 665– 674. doi :10.5351/CSAM.2015.22.6.665. ISSN 2287-7843. PMC 4681537. PMID 26688802 .
^ Rummel, RJ (1976). 「相関関係を理解する」
^ ケンドールMG、スチュアートA.（1973）統計学の高度理論、第2巻（第3版）、 ISBN 0-85264-215-6、第27.22条
^ フィッシャー, RA (1924). 「偏相関係数の分布」.メトロン. 3 ( 3–4 ): 329– 332.
^ “Partial and Semipartial Correlation”. 2014年2月6日時点のオリジナルよりアーカイブ。
^ StatSoft, Inc. (2010). 「半部分相関（または部分相関）」、電子統計教科書、タルサ、オクラホマ州: StatSoft、2011年1月15日アクセス。
^ Ledoit, O., & Wolf, M. (2004). 「大規模次元共分散行列の条件付き推定量」. Journal of Multivariate Analysis , 88(2), 365–411. https://doi.org/10.1016/S0047-259X(03)00096-4
^ Schäfer, J., & Strimmer, K. (2005). 「大規模共分散行列推定への縮小アプローチと機能ゲノミクスへの示唆」遺伝学および分子生物学における統計的応用, 4(1). https://doi.org/10.2202/1544-6115.1175
^ Ledoit, O., & Wolf, M. (2022). （非）線形縮小の威力：共分散行列推定のレビューとガイド. Journal of Financial Econometrics , 20(1), 187-218. https://doi.org/10.1093/jjfinec/nbaa007

外部リンク

プロホロフ、AV (2001) [1994]、「偏相関係数」、数学百科事典、EMSプレス
IMSL数値ライブラリPCORRルーチンの「説明」セクションの数式
3変数の例

[Baba-1] 馬場国弘;柴田李亭;渋谷正明（2004）。「条件付き独立性の尺度としての偏相関と条件付き相関」。オーストラリアおよびニュージーランド統計ジャーナル。46 (4): 657–664 .土井:10.1111/j.1467-842X.2004.00360.x。S2CID 123130024。

[2] Guilford JP, Fruchter B. (1973). 『心理学と教育における基礎統計学』東京: McGraw-Hill工学社.

[3] Kim, Seongho (2015年11月). 「ppcor: 半偏相関係数の高速計算のためのRパッケージ」. Communications for Statistical Applications and Methods . 22 (6): 665– 674. doi :10.5351/CSAM.2015.22.6.665. ISSN 2287-7843. PMC 4681537. PMID 26688802 .

[4] Rummel, RJ (1976). 「相関関係を理解する」

[5] ケンドールMG、スチュアートA.（1973）統計学の高度理論、第2巻（第3版）、 ISBN 0-85264-215-6、第27.22条

[6] フィッシャー, RA (1924). 「偏相関係数の分布」.メトロン. 3 ( 3–4 ): 329– 332.

[7] “Partial and Semipartial Correlation”. 2014年2月6日時点のオリジナルよりアーカイブ。

[8] StatSoft, Inc. (2010). 「半部分相関（または部分相関）」、電子統計教科書、タルサ、オクラホマ州: StatSoft、2011年1月15日アクセス。

[9] Ledoit, O., & Wolf, M. (2004). 「大規模次元共分散行列の条件付き推定量」. Journal of Multivariate Analysis , 88(2), 365–411. https://doi.org/10.1016/S0047-259X(03)00096-4

[10] Schäfer, J., & Strimmer, K. (2005). 「大規模共分散行列推定への縮小アプローチと機能ゲノミクスへの示唆」遺伝学および分子生物学における統計的応用, 4(1). https://doi.org/10.2202/1544-6115.1175

[11] Ledoit, O., & Wolf, M. (2022). （非）線形縮小の威力：共分散行列推定のレビューとガイド. Journal of Financial Econometrics , 20(1), 187-218. https://doi.org/10.1093/jjfinec/nbaa007