共分散

2つの確率変数XYの共分散の符号

確率論統計学において共分散は2つの確率変数の同時変動の尺度である[1]

したがって、共分散の符号は、変数間の線形関係の傾向を示します。 1 つの変数の大きい値が主に他の変数の大きい値に対応し、同じことがより小さい値にも当てはまる場合 (つまり、変数は同様の動作を示す傾向がある場合)、共分散は正です。 [2]逆に、1 つの変数の大きい値が主に他の変数の小さい値に対応する場合 (つまり、変数は反対の動作を示す傾向がある場合)、共分散は負です。 共分散の 1 つの特徴は、測定単位があり、共分散の大きさがその単位によって影響を受けることです。 つまり、単位を変更すると (たとえば、メートルからミリメートルに)、共分散値が比例して変化するため、共分散のみから関係の強さを評価することが難しくなります。 状況によっては、必ずしも同じ単位を持たないランダム変数の異なるペア間の結合の強さを比較することが望ましい場合があります。[3]このような状況では、相関係数を使用します。これは、2つのランダム変数の総分散の幾何平均(つまり、標準偏差の積)で割ることで共分散を正規化し、-1から1の間の結果を取得し、単位を無関係にします。[4]

(1)2つのランダム変数の共分散(結合確率分布の特性として見ることができる母数 パラメータ)と、(2)標本共分散(標本の記述子として機能するだけでなく、母数パラメータの推定値としても機能する)を区別する必要がある。

意味

有限の2次モーメントを持つ2つの共分布する 実数値 確率変数 とに対して、共分散は、それぞれの期待値からの偏差の積の期待値(または平均)として定義される: [5] [6] : 119 

ここで、 は の期待値であり、 の平均とも呼ばれます。共分散は、分散に類似してまたは と表記されることもあります。期待値の線形性を利用すると、これは と の積の期待値から と の期待値の積を引いた値に簡略化できます。 この恒等式は数学的な導出には便利です。しかし、数値計算の観点からは、破滅的な相殺の影響を受けやすいです(以下の数値計算のセクションを参照)。

共分散の測定単位、 の単位と の単位の積です。対照的に、共分散に依存する相関係数は、線形従属の無次元尺度です。(実際、相関係数は共分散の正規化バージョンとして簡単に理解できます。)

複素確率変数

2つの複素確率変数 間の共分散は次のように定義される[6] :119 

定義の 2 番目の要素の複雑な活用に注意してください。

関連する疑似共分散も定義できます。

離散確率変数

(実)確率変数ペアが値を等確率でとることができる場合、共分散は平均とを用いて次のように等価に表すことができます

手段を直接参照せずに、次のように表現することもできる。[7]

より一般的には、の実現例、すなわち が存在するが確率が等しくない場合、共分散は

2つの離散確率変数とが、の結合確率に対応する要素によって表される結合確率分布を持つ場合、共分散は行列のインデックスの二重和を使用して計算されます。

3つの独立した確率変数と2つの定数を考えます特別な場合、と においては、の間の共分散はの分散に等しく、共分散という名称は全く適切です。

共分散の例の幾何学的解釈。各直方体は 、その点( x , y , f  ( x , y ))と、 X軸とY軸の平均値(マゼンタ色の点)を軸に沿わせた 境界ボックスです。共分散は、直方体の第1象限と第3象限(赤)および第2象限と第4象限(青)の体積の和です。

とが次の結合確率質量関数を持つと仮定する[8]ここで、6つの中央のセルは、6つの仮説的実現の離散結合確率を与える

×
567
y800.40.10.5
90.300.20.5
0.30.40.31

は3つの値(5、6、7)を取り、 は2つの値(8、9)を取ります。それらの平均は、とです

プロパティ

自身との共分散

分散共分散の特殊なケースであり、2つの変数は同一である: [6] : 121 

線形結合の共分散

、、、実数値の確率変数で、実数値の定数である場合、共分散の定義から次の事実が導かれます

実数値、定数の確率変数の列に対して

ホーフディングの共分散恒等式

2つのランダム変数間の共分散を計算するための便利な恒等式は 、Hoeffdingの共分散恒等式である: [9]ここで、 はランダムベクトルの結合累積分布関数であり、は周辺分布である

非相関性と独立性

共分散がゼロであるランダム変数は無相関と呼ばれます[6] : 121 同様に、主対角線外のすべての要素で共分散行列がゼロであるランダムベクトルの成分も無相関と呼ばれます。

とが独立確率変数である場合、それらの共分散はゼロである。[6] : 123  [10]これは、独立性の下で、

しかし、逆は一般には成り立ちません。例えば、 がにおいて一様分布し、 が であるとします。明らかに、と は独立ではありませんが、

この場合、との関係は非線形ですが、相関と共分散は2つの確率変数間の線形依存関係の尺度です。この例は、2つの確率変数が無相関であっても、必ずしも独立であることを意味するわけではないことを示しています。しかし、2つの変数が共に正規分布している場合(ただし、それぞれが単に正規分布している場合はそうではありません)、無相関であることは独立性を意味します[11]

共分散が正であるものは正の相関があると言われ、つまりであれば となる可能性が高い。逆に、共分散が負である と負の相関があり、 であれば となる可能性が高い

内積との関係

共分散の特性の多くは、内積の特性と同様の特性を満たすことを観察することによって簡潔に抽出できます。

  1. 双線形:定数確率変数の場合
  2. 対称:
  3. 半正定値:すべての確率変数に対して でありがほぼ確実に定数であることを意味します

実際、これらの特性は、共分散が、有限の2次モーメントを持つランダム変数の部分空間を取り、定数だけ異なる任意の2つを同一視することによって得られる商ベクトル空間上の内積を定義することを意味します。(この同一視により、上記の半正定値は正定値になります。)この商ベクトル空間は、有限の2次モーメントを持ち平均がゼロであるランダム変数の部分空間と同型です。この部分空間では、共分散はまさに標本空間上の実数値関数のL 2内積です。

その結果、有限分散の確率変数の場合、コーシー・シュワルツの不等式によって不等式が成立します

証明: ならば、自明に成り立つ。そうでなければ、確率変数

そして、

標本共分散の計算

観測されていない母集団から抽出された各変数の観測に基づく変数間の標本共分散は、次のエントリを持つ行列で与えられる。

これは変数と変数間の共分散の推定値です

標本平均と標本共分散行列は、ランダムベクトルの平均と共分散行列不偏推定値である。ランダムベクトルとは、 j番目の要素がランダム変数のいずれかであるベクトルである。標本共分散行列の分母が ではなく である理由は、母平均が未知であるため標本平均 で置き換えられるからである。母平均が既知である場合、同様の不偏推定値は次のように与えられる 。

一般化

実数ランダムベクトルの自己共分散行列

有限の2次モーメントを持つ共分布確率変数のベクトルに対して、その自己共分散行列(分散共分散行列または単に共分散行列とも呼ばれる)(またはと表記される)は次のように定義される[12] :335 

Σを共分散行列 Σ を持つランダムベクトルとしA を左辺に作用する行列とします。行列ベクトル積AXの共分散行列は、以下の通りです。

これは期待値の線形性の直接的な結果であり、白色化変換などの線形変換をベクトルに適用する場合に役立ちます。

実数ランダムベクトルの相互共分散行列

実数ランダムベクトル の場合共分散行列は[12]に等しい:336 

ここではベクトル (または行列) の転置です

この行列の - 番目の要素は、 のi番目のスカラー成分とのj番目のスカラー成分間の共分散に等しい。特に、 は の転置行列である

実数または複素ヒルベルト空間におけるランダムベクトルの相互共分散セスクイリニア形式

より一般的には、およびを、または第1変数について反線型なヒルベルト空間としそれぞれを持つ確率変数とする。すると、およびの共分散は (第1変数について反線型) 上の二乗線型形式で、次のように与えられる

数値計算

のとき、とが正確に計算されない場合、方程式は壊滅的な打ち消しを起こしやすいため、データが以前に中心化されていないコンピュータプログラムでは使用を避けるべきです。[13]この場合、数値的に安定したアルゴリズムが優先されます。 [14]

コメント

共分散は、2つの確率変数間の「線型依存性」の尺度と呼ばれることがあります。これは、線型代数の文脈における意味とは異なります線型依存性を参照)。共分散を正規化すると、ピアソン相関係数が得られます。これは、変数間の関係を記述する最良の線型関数の適合度を示します。この意味で、共分散は依存性の線型的な尺度です。

アプリケーション

遺伝学と分子生物学

共分散は生物学において重要な指標である。DNAの特定の配列は間で他の配列よりも保存されているため、タンパク質の二次構造と三次構造、またはRNA構造を研究するために、近縁種の配列を比較する。配列の変化が見られる場合、または非コードRNA (マイクロRNAなど)に全く変化が見られない場合、その配列はRNAループなどの共通の構造モチーフに必要であることがわかる。遺伝学では、共分散は遺伝子関係マトリックス(GRM)(別名血縁マトリックス)を計算するための基礎となり、近親者が知られていないサンプルから集団構造を推測したり、複雑な形質の遺伝率を推測したりすることができる。

進化論自然選択理論において価格方程式は遺伝形質の頻度が時間とともにどのように変化するかを記述する。この方程式は、形質と適応度との共分散を用いて、進化と自然選択を数学的に記述する。この方程式は、遺伝子伝達と自然選択が集団の各世代における遺伝子の割合に及ぼす影響を理解する方法を提供する。[15] [16]

金融経済学では

共分散は金融経済学、特に現代ポートフォリオ理論資本資産価格モデルにおいて重要な役割を果たします。様々な資産の収益率間の共分散は、一定の仮定の下で、投資家が分散投資の観点から保有すべき(規範的分析)または保有すると予測される(実証的分析)様々な資産の相対的な量を決定するために用いられます

気象・海洋データ同化において

共分散行列は、気象予報モデルの実行に必要な初期条件を推定する上で重要であり、この手順はデータ同化と呼ばれます。「予測誤差共分散行列」は通常、平均状態(気候学的平均またはアンサンブル平均)の周りの擾乱間で構築されます。「観測誤差共分散行列」は、観測誤差の合成値(対角線上)と観測値間の相関誤差(対角線外)の大きさを表すために構築されます。これは、カルマンフィルタリングや、より一般的な時間変動システムの状態推定への共分散行列の広範な応用例です。

微気象学では

共分散法は、平均値からの垂直風速の瞬間偏差とガス濃度の瞬間偏差の共分散が垂直乱流フラックスを計算するための基礎となる重要な大気測定技術です。

信号処理において

共分散行列は信号のスペクトル変動を捉えるために使用されます。[17]

統計では

相関

2つの確率変数間のピアソン相関係数次のように定義される。

どこ

  • 共分散は
  • 標準 偏差
  • は の標準偏差です

分母は と表記されることもあり、これは分散の 幾何平均です。

このように、相関係数は共分散の正規化版であることがわかります。相関係数は常にとの間の数値であり、共分散とは異なり単位はありません。

相関係数は で示されることが多く、科学的研究で頻繁に報告されます。

主成分分析

共分散行列は、主成分分析において、データ前処理における特徴量の次元数を削減するために使用されます。主成分とは、データにおける分散を最も説明する次元です。よく知られている応用例としては、知能分析があり、g因子が生成されます。また、性格分析にも応用され、 5因子モデルなどのモデルが主成分分析から導出されます。

参照

参考文献

  1. ^ ライス、ジョン (2007).数理統計とデータ分析. ブルックス/コール・センゲージ・ラーニング. p. 138. ISBN 9780534399429
  2. ^ Weisstein, Eric W.「共分散」。MathWorld
  3. ^ Kim, Hae-Young (2018年2月). 「臨床研究者のための統計ノート:共分散と相関関係」. Restorative Dentistry & Endodontics . 43 (1) e4. doi :10.5395/rde.2018.43.e4. ISSN 2234-7658  . PMC 5816993. PMID  29487835. 
  4. ^ “4.3. 共分散と相関係数 — TU Delft教科書”. mude.citg.tudelft.nl . 2025年10月30日閲覧
  5. ^ オックスフォード統計辞典、オックスフォード大学出版局、2002年、104ページ。
  6. ^ abcde Park, Kun Il (2018).確率過程の基礎と通信への応用. Springer. ISBN 9783319680743
  7. ^ Yuli Zhang; Huaiyu Wu; Lei Cheng (2012年6月). 「分散と共分散に関するいくつかの新しい変形式」.第4回国際モデリング・同定・制御会議(ICMIC2012) 論文集. pp.  987– 992.
  8. ^ “Covariance of X and Y | STAT 414/415”. ペンシルベニア州立大学. 2017年8月17日時点のオリジナルよりアーカイブ2019年8月4日閲覧。
  9. ^ Papoulis (1991).確率、ランダム変数、確率過程. McGraw-Hill.
  10. ^ シーグリスト、カイル. 「共分散と相関」. アラバマ大学ハンツビル校. 2022年10月3日閲覧
  11. ^ デッキング、ミシェル編 (2005).確率と統計の現代的入門:なぜ、どのように理解するのか. シュプリンガー統計テキスト. ロンドン [ハイデルベルク]: シュプリンガー. ISBN 978-1-85233-896-1
  12. ^ ab Gubner, John A. (2006).電気・コンピュータエンジニアのための確率とランダムプロセス. ケンブリッジ大学出版局. ISBN 978-0-521-86470-1
  13. ^ Donald E. Knuth (1998).『コンピュータプログラミングの技法』第2巻:半数値アルゴリズム、第3版、p. 232. ボストン:Addison-Wesley.
  14. ^ Schubert, Erich; Gertz, Michael (2018). 「(共)分散の数値的に安定な並列計算」.第30回国際科学・統計データベース管理会議議事録. ボルツァーノ(イタリア): ACM Press. pp.  1– 12. doi :10.1145/3221269.3223036. ISBN 978-1-4503-6505-5. S2CID  49665540。
  15. ^ プライス、ジョージ (1970). 「選択と共分散」. Nature . 227 (5257): 520– 521.書誌コード:1970Natur.227..520P. doi :10.1038/227520a0. PMID  5428476. S2CID  4264723.
  16. ^ ハーマン、オーレン (2020). 「科学が生命を映し出すとき:プライス方程式の起源について」.王立協会哲学論文集 B: 生物科学. 375 (1797). royalsocietypublishing.org: 1– 7. doi : 10.1098/rstb.2019.0352 . PMC 7133509. PMID  32146891 . 
  17. ^ Sahidullah, Md.; Kinnunen, Tomi (2016年3月). 「話者照合のための局所スペクトル変動特徴」 .デジタル信号処理. 50 : 1–11 . Bibcode :2016DSP....50....1S. doi :10.1016/j.dsp.2015.10.011.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Covariance&oldid=1321774873"