多変量正規分布

多変量正規分布
多変量正規分布
	確率密度関数およびの多変量正規分布からの多数のサンプルポイントが、3 シグマ楕円、2 つの周辺分布、および 2 つの 1 次元ヒストグラムとともに表示されます。
表記
パラメータ	μ ∈ R k —位置; Σ ∈ R k × k —共分散(正の半定値行列)
サポート	x ∈ μ + スパン( Σ ) ⊆ R k
PDF	; Σが正定値の場合にのみ存在する
平均	μ
モード	μ
分散	Σ
エントロピ
MGF
CF
カルバック・ライブラー距離	§ カルバック・ライブラー距離を参照

確率論と統計学において、多変量正規分布、多変量ガウス分布、または結合正規分布は、1次元（単変量）正規分布を高次元に一般化したものです。ある定義では、ランダムベクトルのk個の成分のすべての線形結合が単変量正規分布に従う場合、そのランダムベクトルはk変量正規分布であるといいます。その重要性は、主に多変量中心極限定理に由来します。多変量正規分布は、多くの場合、平均値の周りに集まる（相関している可能性のある）実数値ランダム変数の集合を、少なくとも近似的に記述するために用いられます。

定義

表記法とパラメータ化

k次元ランダムベクトルの多変量正規分布は、次の表記法で表すことができます。 $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$

\mathbf {X} \ \sim \ {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }}),

あるいはk次元であることを明示的に知らせるために、 $\mathbf {X}$

\mathbf {X} \ \sim \ {\mathcal {N}}_{k}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }}),

k次元平均ベクトル

{\boldsymbol {\mu }}=\operatorname {E} [\mathbf {X} ]=(\operatorname {E} [X_{1}],\operatorname {E} [X_{2}],\ldots ,\operatorname {E} [X_{k}])^{\mathrm {T} },

共分散行列 $k\times k$

\Sigma _{i,j}=\operatorname {E} [(X_{i}-\mu _{i})(X_{j}-\mu _{j})]=\operatorname {Cov} [X_{i},X_{j}]

かつとなる。共分散行列の逆行列は精度行列と呼ばれ、と表記される。 $1\leq i\leq k$ $1\leq j\leq k$ ${\boldsymbol {Q}}={\boldsymbol {\Sigma }}^{-1}$

標準正規乱数ベクトル

実数ランダムベクトルは、そのすべての要素が独立しており、それぞれが平均ゼロ、分散1の正規分布するランダム変数である場合、つまりすべてのに対してである場合、標準正規ランダムベクトルと呼ばれます。^[1]^：p.454 $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ $X_{i}$ $X_{i}\sim \ {\mathcal {N}}(0,1)$ $i=1\ldots k$

中心正規乱数ベクトル

実数ランダムベクトルは、と同じ分布を持つ行列が存在するとき、中心正規ランダムベクトルと呼ばれます。ここで、は成分を持つ標準正規ランダムベクトルです。 ^[1]^：p.454 $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ $k\times \ell$ ${\boldsymbol {A}}$ ${\boldsymbol {A}}\mathbf {Z}$ $\mathbf {X}$ $\mathbf {Z}$ $\ell$

正規乱数ベクトル

実数ランダムベクトルは、ランダム -ベクトル（標準正規ランダムベクトル）、-ベクトル、および行列が存在し、となるとき、正規ランダムベクトルと呼ばれます。^[2]^{: p. 454}^[1]^{: p. 455} $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$ $\ell$ $\mathbf {Z}$ $k$ ${\boldsymbol {\mu }}$ $k\times \ell$ ${\boldsymbol {A}}$ $\mathbf {X} ={\boldsymbol {A}}\mathbf {Z} +{\boldsymbol {\mu }}$

正式には：

$\mathbf {X} \ \sim \ {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff {\text{there exist }}{\boldsymbol {\mu }}\in \mathbb {R} ^{k},{\boldsymbol {A}}\in \mathbb {R} ^{k\times \ell }{\text{ such that }}\mathbf {X} ={\boldsymbol {A}}\mathbf {Z} +{\boldsymbol {\mu }}{\text{ and }}\forall n=1,\ldots ,\ell :Z_{n}\sim \ {\mathcal {N}}(0,1),{\text{i.i.d.}}$

ここで共分散行列はです。 ${\boldsymbol {\Sigma }}={\boldsymbol {A}}{\boldsymbol {A}}^{\mathrm {T} }$

共分散行列が特異な退化の場合、対応する分布は密度を持ちません。詳細は以下のセクションを参照してください。このケースは統計学において頻繁に発生します。例えば、通常の最小二乗回帰における残差ベクトルの分布などです。は一般に独立ではなく、独立したガウス変数の集合に行列を適用した結果と見ることができます。 $X_{i}$ ${\boldsymbol {A}}$ $\mathbf {Z}$

同等の定義

以下の定義は上記の定義と同等です。ランダムベクトルが多変量正規分布に従うとは、以下の同等の条件のいずれかを満たすことを意味します。 $\mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }$

その成分の線形結合はすべて正規分布する。つまり、任意の定数ベクトルに対して、確率変数は単変量正規分布に従う。ここで、分散がゼロの単変量正規分布は、その平均上の点質点となる。 $Y=a_{1}X_{1}+\cdots +a_{k}X_{k}$ $\mathbf {a} \in \mathbb {R} ^{k}$ $Y=\mathbf {a} ^{\mathrm {T} }\mathbf {X}$
kベクトルと対称な半正定値行列が存在し、その特性関数は $\mathbf {\mu }$ $k\times k$ ${\boldsymbol {\Sigma }}$ $\mathbf {X}$ $\varphi _{\mathbf {X} }(\mathbf {u} )=\exp {\Big (}i\mathbf {u} ^{\mathrm {T} }{\boldsymbol {\mu }}-{\tfrac {1}{2}}\mathbf {u} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {u} {\Big )}.$

球面正規分布は、任意の直交座標系において成分が独立している唯一の分布として特徴付けられる。^[3]^[4]

密度関数

非退化の場合

多変量正規分布は、対称共分散行列が正定値であるとき「非退化」であると言われる。この場合、分布の密度は^{[5]である。} ${\boldsymbol {\Sigma }}$

$f_{\mathbf {X} }(x_{1},\ldots ,x_{k})={\frac {\exp \left(-{\frac {1}{2}}\left({\mathbf {x} }-{\boldsymbol {\mu }}\right)^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}\left({\mathbf {x} }-{\boldsymbol {\mu }}\right)\right)}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}$

ここで、は実数k次元列ベクトルであり、はの行列式（一般化分散とも呼ばれる）である。が行列（すなわち、単一の実数）の場合、上記の式は一変量正規分布の式に簡約される。 ${\mathbf {x} }$ $|{\boldsymbol {\Sigma }}|\equiv \det {\boldsymbol {\Sigma }}$ ${\boldsymbol {\Sigma }}$ ${\boldsymbol {\Sigma }}$ $1\times 1$

複素正規分布の円対称バージョンは、若干異なる形式になります。

各等密度軌跡（ k次元空間内の点の軌跡で、それぞれが同じ特定の密度値を与えるもの）は楕円またはその高次元の一般化です。したがって、多変量正規分布は楕円分布の特殊なケースです。

この量はマハラノビス距離として知られており、これは検定点から平均値までの距離を表します。マハラノビス距離の2乗はk項の和に分解され、各項は3つの意味のある成分の積となります。^[6]の場合、分布は単変量正規分布に縮小され、マハラノビス距離は標準得点の絶対値に縮小されることに注意してください。以下の区間も参照してください。 ${\sqrt {({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})}}$ ${\mathbf {x} }$ ${\boldsymbol {\mu }}$ $({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})$ $k=1$

二変量の場合

2次元非特異ケース（）では、ベクトルの確率密度関数は次のようになります。ここではとの相関関係、はとの相関関係です。この場合、 $k=\operatorname {rank} \left(\Sigma \right)=2$ ${\text{[XY]}}\prime$ $f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2\left[1-\rho ^{2}\right]}}\left[\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right]\right)$ $\rho$ $X$ $Y$ $\sigma _{X}>0$ $\sigma _{Y}>0$

{\boldsymbol {\mu }}={\begin{pmatrix}\mu _{X}\\\mu _{Y}\end{pmatrix}},\quad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\end{pmatrix}}.

二変量の場合、正規性の多変量再構成の最初の同等の条件は、ベクトルが二変量正規であると結論付けるためには、とが異なる線形結合の可算無限集合が正規であることを確認するだけで十分であるため、それほど制限を緩めることができます。^[7] $X$ $Y$ ${\text{[XY]}}\prime$

平面にプロットされた二変量等密度軌跡は楕円であり、その主軸は共分散行列の固有ベクトルによって定義されます（楕円の長半径と短半径は、順序付けられた固有値の平方根に等しくなります）。 $x,y$ ${\boldsymbol {\Sigma }}$

を中心とし、おおよその方向の標準偏差が 3 、直交方向の標準偏差が 1 の二変量正規分布。 $(1,3)$ $(0.878,0.478)$

相関パラメータの絶対値が増加すると、これらの軌跡は次の線に向かって圧縮されます。 $\rho$

y(x)=\operatorname {sgn}(\rho ){\frac {\sigma _{Y}}{\sigma _{X}}}(x-\mu _{X})+\mu _{Y}.

これは、（sgnは符号関数）をに置き換えたこの式が、の値が与えられた場合のの最良の線形不偏予測となるためである。^[8] $\operatorname {sgn}(\rho )$ $\rho$ $Y$ $X$

退化したケース

共分散行列がフルランクでない場合、多変量正規分布は退化しており、密度を持たない。より正確には、k次元ルベーグ測度（微積分レベルの確率論の講義で通常想定される測度）に関して密度を持たない。分布が測度に関して絶対連続である乱数ベクトルのみが、（その測度に関して）密度を持つと言われる。密度について論じつつ測度論的な複雑さを避けるには、共分散行列が正定値となるような座標のサブセットに着目する方が簡単である。そうすれば、他の座標は、これらの選択された座標のアフィン関数として考えることができる。^[9] ${\boldsymbol {\Sigma }}$ $\operatorname {rank} ({\boldsymbol {\Sigma }})$ $\mathbf {x}$

特異ケースにおける密度について有意義に議論するためには、異なる基底測度を選択する必要があります。崩壊定理を用いて、ガウス分布が支持される次元アフィン部分空間へのルベーグ測度の制限、すなわちを定義することができます。この測度に関して、分布は次のモチーフの密度を持ちます。 $\operatorname {rank} ({\boldsymbol {\Sigma }})$ $\mathbb {R} ^{k}$ $\left\{{\boldsymbol {\mu }}+{\boldsymbol {\Sigma ^{1/2}}}\mathbf {v} :\mathbf {v} \in \mathbb {R} ^{k}\right\}$

f(\mathbf {x} )={\frac {\exp \left(-{\frac {1}{2}}\left(\mathbf {x} -{\boldsymbol {\mu }}\right)^{\mathrm {T} }{\boldsymbol {\Sigma }}^{+}\left(\mathbf {x} -{\boldsymbol {\mu }}\right)\right)}{\sqrt {\det \nolimits ^{*}(2\pi {\boldsymbol {\Sigma }})}}}

ここでは一般逆行列であり、は擬似行列式である。^[10] ${\boldsymbol {\Sigma }}^{+}$ $\det \nolimits ^{*}$

累積分布関数

次元 1 の累積分布関数(cdf)の概念は、長方形領域と楕円体領域に基づいて、2 つの方法で多次元の場合に拡張できます。

最初の方法は、ランダムベクトルのcdfを、ベクトルのすべての要素が対応する値以下になる確率として定義することです。^[11] $F(\mathbf {x} )$ $\mathbf {X}$ $\mathbf {X}$ $\mathbf {x}$

F(\mathbf {x} )=\mathbb {P} (\mathbf {X} \leq \mathbf {x} ),\quad {\text{where }}\mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }}).

の閉じた形式は存在しないが、それを数値的に推定するアルゴリズムは数多く存在する。^[11]^[12] $F(\mathbf {x} )$

もう一つの方法は、標準偏差を直接一般化したガウス分布からのマハラノビス距離によって決まる楕円体内にサンプルが存在する確率としてCDFを定義することである。 ^[13]この関数の値を計算するために、次のような閉じた解析式が存在する。 ^[13] $F(r)$ $r$

間隔

多変量正規分布の区間は、次式を満たすベクトルxからなる領域となる。

({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\leq \chi _{k}^{2}(p).

ここでは次元ベクトル、は既知の次元平均ベクトル、は既知の共分散行列、は自由度を持つカイ二乗分布の確率の分位関数です。 ^[14]式が楕円の内部を定義し、カイ二乗分布が平均が2（率が半分）の指数分布に簡略化される場合。 ${\mathbf {x} }$ $k$ ${\boldsymbol {\mu }}$ $k$ ${\boldsymbol {\Sigma }}$ $\chi _{k}^{2}(p)$ $p$ $k$ $k=2,$

補完累積分布関数（裾分布）

補完累積分布関数（ccdf）または裾分布 はと定義される。のとき、ccdfは従属ガウス変数の最大値の確率として表される。^[15] ${\overline {F}}(\mathbf {x} )=1-\mathbb {P} \left(\mathbf {X} \leq \mathbf {x} \right)$ $\mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})$

{\overline {F}}(\mathbf {x} )=\mathbb {P} \left(\bigcup _{i}\{X_{i}\geq x_{i}\}\right)=\mathbb {P} \left(\max _{i}Y_{i}\geq 0\right),\quad {\text{where }}\mathbf {Y} \sim {\mathcal {N}}\left({\boldsymbol {\mu }}-\mathbf {x} ,\,{\boldsymbol {\Sigma }}\right).

CCDFを計算するための単純な閉式は存在しないが、従属ガウス変数の最大値はモンテカルロ法によって正確に推定することができる。^[15]^[16]

プロパティ

さまざまな領域における確率

（ここでは行列、はベクトル、はスカラー）で定義される二次領域における多変量正規分布の確率内容は、ガウス判別分析を用いたベイズ分類/決定理論に関連し、一般化カイ二乗分布で与えられる。^[17]（ここでは一般関数）で定義される任意の一般領域内の確率内容は、光線追跡法^[17]（Matlabコード）を用いて計算することができる。 $q({\boldsymbol {x}})={\boldsymbol {x}}'\mathbf {Q_{2}} {\boldsymbol {x}}+{\boldsymbol {q_{1}}}'{\boldsymbol {x}}+q_{0}>0$ $\mathbf {Q_{2}}$ ${\boldsymbol {q_{1}}}$ $q_{0}$ $f({\boldsymbol {x}})>0$ $f({\boldsymbol {x}})$

より高い瞬間

xのk次モーメントは次のように与えられる。

\mu _{1,\ldots ,N}(\mathbf {x} )\mathrel {\stackrel {\mathrm {def} }{=}} \mu _{r_{1},\ldots ,r_{N}}(\mathbf {x} )\mathrel {\stackrel {\mathrm {def} }{=}} \operatorname {E} \left[\prod _{j=1}^{N}X_{j}^{r_{j}}\right]

ここで $r 1 + r 2 + \dots + r N = k です。$

k次中心モーメントは次の通りである。

kが奇数の場合、 $μ 1, ..., N (x - μ) = 0$ 。
kが偶数で $k = 2 λ$ の場合、^{[あいまい]} $\mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)$

ここで、和は集合のλ （順序なし）ペアへのすべての割り当てについて取られる。つまり、k番目 $（= 2λ$ $=$ $6）の中心積率に対して、$ λ = 3個の共分散の積を合計する（簡略化のため、期待値μは0とする）。 $\left\{1,\ldots ,2\lambda \right\}$

{\begin{aligned}&\operatorname {E} [X_{1}X_{2}X_{3}X_{4}X_{5}X_{6}]\\[8pt]={}&\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{4}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{5}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{6}]\operatorname {E} [X_{4}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{4}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{3}X_{6}]+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{3}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{3}X_{6}]+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{3}X_{4}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{4}X_{5}]+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{3}X_{5}]+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{3}X_{4}].\end{aligned}}

これにより、合計（上記の例では15）の項が生成され、それぞれはλ（この場合は3）個の共分散の積となります。4次モーメント（4変数）の場合、項は3つです。6次モーメントの場合、項は $3 \times 5 = 15、8$ 次モーメントの場合、項は $3 \times 5 \times 7 = 105$ です。 ${\tfrac {(2\lambda -1)!}{2^{\lambda -1}(\lambda -1)!}}$

次に、リストの項を、r ₁個の 1、r ₂個の 2 などで構成されるリストの対応する項に置き換えることによって、共分散が決定されます。これを説明するために、次の 4 次中心モーメントのケースを調べます。 $[1,\ldots ,2\lambda ]$

{\begin{aligned}\operatorname {E} \left[X_{i}^{4}\right]&=3\sigma _{ii}^{2}\\[4pt]\operatorname {E} \left[X_{i}^{3}X_{j}\right]&=3\sigma _{ii}\sigma _{ij}\\[4pt]\operatorname {E} \left[X_{i}^{2}X_{j}^{2}\right]&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\[4pt]\operatorname {E} \left[X_{i}^{2}X_{j}X_{k}\right]&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\[4pt]\operatorname {E} \left[X_{i}X_{j}X_{k}X_{n}\right]&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{in}\sigma _{jk}.\end{aligned}}

ここで、はX _iとX _jの共分散です。上記の方法では、まずk 個の異なるX変数を持つk次モーメントの一般的なケースを求め、それに応じてこれを簡略化します。例えば、の場合、 $X$ $i$ $=$ $X$ $j$ とし、という事実を利用します。 $\sigma _{ij}$ $E\left[X_{i}X_{j}X_{k}X_{n}\right]$ $\operatorname {E} [X_{i}^{2}X_{k}X_{n}]$ $\sigma _{ii}=\sigma _{i}^{2}$

法線ベクトルの機能

正規ベクトルの二次形式（ここでは行列、はベクトル、はスカラー）は、一般化カイ二乗変数である。^[17]正規ベクトルの方向は、投影された正規分布に従う。^[18] ${\boldsymbol {x}}$ $q({\boldsymbol {x}})={\boldsymbol {x}}'\mathbf {Q_{2}} {\boldsymbol {x}}+{\boldsymbol {q_{1}}}'{\boldsymbol {x}}+q_{0}$ $\mathbf {Q_{2}}$ ${\boldsymbol {q_{1}}}$ $q_{0}$

が法線ベクトルの一般的なスカラー値関数である場合、その確率密度関数、累積分布関数、逆累積分布関数は、光線追跡法（Matlabコード）の数値法によって計算することができる。^[17] $f({\boldsymbol {x}})$

尤度関数

平均と共分散行列が分かっている場合、観測ベクトルの対数尤度は単純に確率密度関数の対数になります。 ${\boldsymbol {x}}$

\ln L({\boldsymbol {x}})=-{\frac {1}{2}}\left[\ln(|{\boldsymbol {\Sigma }}|\,)+({\boldsymbol {x}}-{\boldsymbol {\mu }})'{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {x}}-{\boldsymbol {\mu }})+k\ln(2\pi )\right]

、

非中心複素数の場合の円対称バージョン（複素数ベクトル）は、 ${\boldsymbol {z}}$

\ln L({\boldsymbol {z}})=-\ln(|{\boldsymbol {\Sigma }}|\,)-({\boldsymbol {z}}-{\boldsymbol {\mu }})^{\dagger }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {z}}-{\boldsymbol {\mu }})-k\ln(\pi )

つまり、共役転置（で示される）が正規転置（で示される）に置き換えられます。これは実際の場合とは若干異なります。これは、複素正規分布の円対称バージョンが正規化定数に対して若干異なる形をとるためです。 $\dagger$ $'$

同様の表記法が多重線形回帰にも用いられる。^[19]

正規ベクトルの対数尤度は正規ベクトルの二次形式であるため、一般化カイ二乗変数として分布する。^[17]

微分エントロピー

多変量正規分布の微分エントロピーは[ 20 ^]

${\begin{aligned}h\left(f\right)&=-\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} \\[1ex]&={\frac {1}{2}}\ln \left|2\pi e{\boldsymbol {\Sigma }}\right|={\frac {k}{2}}\left(1+\ln 2\pi \right)+{\frac {1}{2}}\ln \left|{\boldsymbol {\Sigma }}\right|,\end{aligned}}$

ここで、バーは行列の行列式、 $k$ はベクトル空間の次元、結果はnatsの単位を持ちます。

カルバック・ライブラー距離

からへのカルバック・ライブラー距離は、非特異行列 Σ ₁と Σ ₀に対して、次の式で表される: ^[21] ${\mathcal {N}}_{1}({\boldsymbol {\mu }}_{1},{\boldsymbol {\Sigma }}_{1})$ ${\mathcal {N}}_{0}({\boldsymbol {\mu }}_{0},{\boldsymbol {\Sigma }}_{0})$

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\right)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\},

ここで、は行列の行列式、はトレース、は自然対数、はベクトル空間の次元です。 $|\cdot |$ $tr(\cdot )$ $\ln(\cdot )$ $k$

対数はeを底とする必要があります。対数の後の2つの項は、密度関数の因数であるか、あるいは自然に生じる式のeを底とする対数であるためです。したがって、この式はnats単位で測定された結果を与えます。上記の式全体をlog _e 2で割ると、ビット単位の発散が得られます。

いつ、 ${\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}$

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\}.

相互情報

2つの多変量正規分布の相互情報量は、カルバック・ライブラー情報量の特殊なケースであり、は全次元多変量分布、は次元周辺分布と次元周辺分布の積であり、となる。と間の相互情報量は次のように与えられる: ^[22] $P$ $k$ $Q$ $k_{1}$ $k_{2}$ $X$ $Y$ $k_{1}+k_{2}=k$ $X$ $Y$

I({\boldsymbol {X}},{\boldsymbol {Y}})={\frac {1}{2}}\ln \left({\frac {\det(\Sigma _{X})\det(\Sigma _{Y})}{\det(\Sigma )}}\right),

どこ

\Sigma ={\begin{bmatrix}\Sigma _{X}&\Sigma _{XY}\\\Sigma _{XY}&\Sigma _{Y}\end{bmatrix}}.

が1次元正規分布の積である場合、本稿のカルバック・ライブラー情報量のセクションの表記法では、は、、およびを対角要素とする対角行列となります。結果として得られる相互情報量の式は以下のとおりです。 $Q$ $k$ ${\boldsymbol {\Sigma }}_{1}$ ${\boldsymbol {\Sigma }}_{0}$ ${\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}$

I({\boldsymbol {X}})=-{1 \over 2}\ln |{\boldsymbol {\rho }}_{0}|,

ここで相関行列はから構築される。^[23] ${\boldsymbol {\rho }}_{0}$ ${\boldsymbol {\Sigma }}_{0}$

二変数の場合、相互情報量の表現は次のようになります。

I(x;y)=-{1 \over 2}\ln(1-\rho ^{2}).

関節の正常性

正規分布と独立性

とが正規分布し、かつが独立である場合、これらは「共分散正規分布」であることを意味します。つまり、このペアは多変量正規分布に従う必要があります。しかし、共分散正規分布に従う変数のペアは、必ずしも独立である必要はありません（相関がない場合、の場合のみ独立です）。 $X$ $Y$ $(X,Y)$ $\rho =0$

2つの正規分布する確率変数は、必ずしも2変量正規分布である必要はない。

2つの確率変数とが両方とも正規分布に従うという事実は、そのペアが結合正規分布に従うことを意味しません。簡単な例として、Xが期待値0、分散1の正規分布に従う場合、およびの場合、が成り立ちます。2つ以上の確率変数についても同様の反例があります。一般に、それらは混合モデルとなります。^[^要出典^] $X$ $Y$ $(X,Y)$ $Y=X$ $|X|>c$ $Y=-X$ $|X|<c$ $c>0$

相関関係と独立性

一般に、確率変数は無相関であっても統計的に独立である場合があります。しかし、確率ベクトルが多変量正規分布に従う場合、その無相関の成分のうち2つ以上は独立です。これは、その成分のうち2つ以上が互いに独立であることを意味します。しかし、先ほど指摘したように、（個別に、周辺的に）正規分布し、かつ無相関である2つの確率変数が独立であるというのは正しくありません。

条件付き分布

N次元xを次のように分割すると

\mathbf {x} ={\begin{bmatrix}\mathbf {x} _{1}\\\mathbf {x} _{2}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(N-q)\times 1\end{bmatrix}}

したがって、μとΣは次のように分割される。

{\boldsymbol {\mu }}={\begin{bmatrix}{\boldsymbol {\mu }}_{1}\\{\boldsymbol {\mu }}_{2}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(N-q)\times 1\end{bmatrix}}

{\boldsymbol {\Sigma }}={\begin{bmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\{\boldsymbol {\Sigma }}_{21}&{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q)\end{bmatrix}}

すると、 x ₂ = aを条件とするx ₁の分布は多変量正規分布となる^[24]( x ₁ | x ₂ = a ) ~ N ( μ , Σ )ここで

{\bar {\boldsymbol {\mu }}}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)

共分散行列

{\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.

^[25]

これはの一般逆行列です。行列はΣにおけるΣ ₂₂のシュアー補行列です。つまり、上の式は、全体の共分散行列を反転し、条件付けされている変数に対応する行と列を削除し、再び反転して条件付き共分散行列を得ることと等価です。 ${\boldsymbol {\Sigma }}_{22}^{-1}$ ${\boldsymbol {\Sigma }}_{22}$ ${\overline {\boldsymbol {\Sigma }}}$

x ₂ = aとわかると分散が変わりますが、新しい分散はaの特定の値に依存しないことに注意してください。おそらくもっと驚くべきことに、平均はだけシフトします。これを、 aの値がわからない状況と比較してみてください。その場合、x _{1 は}の分布になります。 ${\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)$ ${\mathcal {N}}_{q}\left({\boldsymbol {\mu }}_{1},{\boldsymbol {\Sigma }}_{11}\right)$

この結果を証明するために導き出された興味深い事実は、ランダムベクトルとが独立しているということです。 $\mathbf {x} _{2}$ $\mathbf {y} _{1}=\mathbf {x} _{1}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\mathbf {x} _{2}$

行列Σ12Σ22−1_は^回帰係数行列として知られてい_ます。

二変量の場合

xがとに分割される二変量の場合、与えられたの条件付き分布は^[26]である。 $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$

X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (a-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right)

ここで、との間の相関係数です。 $\rho ={\frac {\sigma _{12}}{\sigma _{1}\sigma _{2}}}$ $X_{1}$ $X_{2}$

二変量条件付き期待値

一般的なケースでは

{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},{\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\right)

X _{2が与えられた場合の X}₁の条件付き期待値は次のようになります。

\operatorname {E} (X_{1}\mid X_{2}=x_{2})=\mu _{1}+\rho {\frac {\sigma _{1}}{\sigma _{2}}}(x_{2}-\mu _{2})

証明: 上記の条件付き分布の期待値を取ることで結果が得られます。 $X_{1}\mid X_{2}$

分散が1である中心化の場合

{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)

X _1がX ₂を与えられたときの条件付き期待値は

\operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}

そして条件付き分散は

\operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};

したがって条件付き分散はx ₂に依存しません。

X _2がzより小さい/大きいという条件付きX ₁の期待値は次の通りである: ^[27]^{: 367}

\operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\varphi (z) \over \Phi (z)},

\operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\varphi (z) \over (1-\Phi (z))},

ここでの最終的な比率は逆ミルズ比と呼ばれます。

証明：最後の2つの結果は結果を使って得られるので、 $\operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}$

\operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)

そして、切断正規分布の期待値の特性を使用します。

周辺分布

多変量正規確率変数の部分集合における周辺分布を得るには、平均ベクトルと共分散行列から無関係な変数（周辺化したい変数）を除外するだけでよい。この証明は、多変量正規分布と線型代数の定義から導かれる。^[28]

例

X = [ X ₁ , X ₂ , X ₃ ]を、平均ベクトルμ = [ μ ₁ , μ ₂ , μ ₃ ]、共分散行列Σ （多変量正規分布の標準的なパラメータ化）を持つ多変量正規分布とします。すると、 X ′ = [ X ₁ , X ₃ ]の結合分布は、平均ベクトルμ ′ = [ μ ₁ , μ ₃ ]、共分散行列 Σ を持つ多変量正規分布となります。 ${\boldsymbol {\Sigma }}'={\begin{bmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{13}\\{\boldsymbol {\Sigma }}_{31}&{\boldsymbol {\Sigma }}_{33}\end{bmatrix}}$

アフィン変換

Y = c + BXがcを定数ベクトル、Bを定数行列とするアフィン変換であるとすると、Y は期待値c + Bμ、分散BΣB ^T、すなわちの多変量正規分布に従う。特に、X _iの任意の部分集合は、同様に多変量正規分布に従う周辺分布に従う。これを確認するには、次の例を考えてみよう。部分集合 ( X ₁ , X ₂ , X ₄ ) ^Tを抽出するには、次のようにする。 $\mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }}),$ $M\times 1$ $M\times N$ $\mathbf {Y} \sim {\mathcal {N}}\left(\mathbf {c} +\mathbf {B} {\boldsymbol {\mu }},\mathbf {B} {\boldsymbol {\Sigma }}\mathbf {B} ^{\rm {T}}\right)$

\mathbf {B} ={\begin{bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}

必要な要素を直接抽出します。

もう一つの系は、 Z = b · Xの分布（ただし、bはXと同じ要素数の定数ベクトル、ドットはドット積を表す）は、を満たす一変量ガウス分布である、ということである。この結果は、 $Z\sim {\mathcal {N}}\left(\mathbf {b} \cdot {\boldsymbol {\mu }},\mathbf {b} ^{\rm {T}}{\boldsymbol {\Sigma }}\mathbf {b} \right)$

\mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.

Σの正定値はドット積の分散が正でなければならないことを意味することに注意してください。

2 XのようなXのアフィン変換は、Xの2 つの独立した実現の合計と同じではありません。

幾何学的解釈

非特異多変量正規分布の等密度線は、平均を中心とする楕円体（すなわち、超球面のアフィン変換）である。 ^{[29]したがって、多変量正規分布は}楕円分布のクラスの例である。楕円体の主軸の方向は、共分散行列の固有ベクトルによって与えられる。主軸の相対的な長さの2乗は、対応する固有値によって与えられる。 ${\boldsymbol {\Sigma }}$

Σ = UΛU ^T = UΛ ^1/2 ( UΛ ^1/2 ) ^Tが固有分解であり、 Uの列が単位固有ベクトル、Λが固有値の対角行列である場合、

\mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).

さらに、U を回転行列として選択することもできます。軸を反転してもN (0, Λ ) には影響しませんが、列を反転するとU の行列式の符号が変わります。分布N ( μ , Σ ) は、実質的にN (0, I ) をΛ ^1/2でスケーリングし、Uで回転させ、 μで平行移動させたものになります。

逆に、 μ、フルランク行列U、および正の対角要素Λ _iの任意の選択は、特異でない多変量正規分布を与えます。任意のΛ _iがゼロでUが正方行列である場合、結果として得られる共分散行列UΛU ^Tは特異です。幾何学的には、これはすべての等高線楕円体が無限に薄く、n次元空間において体積がゼロであることを意味します。これは、主軸の少なくとも1つの長さがゼロであるためです。これは退化したケースです。

「二変量正規確率変数の真の平均の周りの半径は、極座標（半径と角度）で書き直すと、ホイト分布に従う。」^[30]

1次元では、区間内で正規分布のサンプルが見つかる確率は約68.27%ですが、高次元では標準偏差楕円の領域内でサンプルが見つかる確率は低くなります。^[31] $\mu \pm \sigma$

次元性	確率
1	0.6827
2	0.3935
3	0.1987
4	0.0902
5	0.0374
6	0.0144
7	0.0052
8	0.0018
9	0.0006
10	0.0002

統計的推論

パラメータ推定

多変量正規分布の共分散行列の最大尤度推定値の導出は簡単です。

つまり、多変量正規分布の確率密度関数（pdf）は

f(\mathbf {x} )={\frac {1}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}\exp \left(-{1 \over 2}(\mathbf {x} -{\boldsymbol {\mu }})^{\rm {T}}{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)

n個の観測値から得られる共分散行列のML推定値は^{[32]である。}

{\widehat {\boldsymbol {\Sigma }}}={1 \over n}\sum _{i=1}^{n}({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})^{\mathrm {T} }

これは単純に標本共分散行列である。これはバイアスのある推定値であり、その期待値は

E\left[{\widehat {\boldsymbol {\Sigma }}}\right]={\frac {n-1}{n}}{\boldsymbol {\Sigma }}.

不偏標本共分散は

{\widehat {\boldsymbol {\Sigma }}}={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})^{\rm {T}}={\frac {1}{n-1}}\left[X'\left(I-{\frac {1}{n}}\cdot J\right)X\right]

（行列形式；は単位行列、Jは1の行列；括弧内の項は中心化行列である）

I

K\times K

K\times K

K\times K

多変量正規分布のパラメータ推定のためのフィッシャー情報行列は、閉形式の表現を持ちます。これは、例えば、この設定におけるパラメータ推定のクラマー・ラオ境界を計算するために使用できます。詳細については、フィッシャー情報を参照してください。

ベイズ推論

ベイズ統計学では、平均ベクトルの共役事前分布は別の多変量正規分布であり、共分散行列の共役事前分布は逆ウィシャート分布である。ここで、n個の観測が行われたとする。 ${\mathcal {W}}^{-1}$

\mathbf {X} =\{\mathbf {x} _{1},\dots ,\mathbf {x} _{n}\}\sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})

そして共役事前分布が割り当てられている。ここで

p({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})=p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }})\ p({\boldsymbol {\Sigma }}),

どこ

p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }})\sim {\mathcal {N}}({\boldsymbol {\mu }}_{0},m^{-1}{\boldsymbol {\Sigma }}),

そして

p({\boldsymbol {\Sigma }})\sim {\mathcal {W}}^{-1}({\boldsymbol {\Psi }},n_{0}).

その後^[32]

{\begin{array}{rcl}p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }},\mathbf {X} )&\sim &{\mathcal {N}}\left({\frac {n{\bar {\mathbf {x} }}+m{\boldsymbol {\mu }}_{0}}{n+m}},{\frac {1}{n+m}}{\boldsymbol {\Sigma }}\right),\\p({\boldsymbol {\Sigma }}\mid \mathbf {X} )&\sim &{\mathcal {W}}^{-1}\left({\boldsymbol {\Psi }}+n\mathbf {S} +{\frac {nm}{n+m}}({\bar {\mathbf {x} }}-{\boldsymbol {\mu }}_{0})({\bar {\mathbf {x} }}-{\boldsymbol {\mu }}_{0})',n+n_{0}\right),\end{array}}

どこ

{\begin{aligned}{\bar {\mathbf {x} }}&={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {x} _{i},\\\mathbf {S} &={\frac {1}{n}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})(\mathbf {x} _{i}-{\bar {\mathbf {x} }})'.\end{aligned}}

多変量正規性検定

多変量正規性検定は、与えられたデータセットが多変量正規分布と類似しているかどうかを検証する。帰無仮説は、データセットが正規分布と類似しているというものであり、したがってp値が十分に小さい場合、データは非正規性を示す。多変量正規性検定には、Cox–Small検定^[33]や、ラリー・ラフスキーとジェローム・フリードマンによって考案されたフリードマン–ラフスキー検定^{[35]をスミスとジェインが改良した検定}^[34]などがある。

マルディアのテスト

マルディア検定^[36]は、歪度と尖度尺度の多変量拡張に基づいている。k次元ベクトルの標本{ x ₁ , ..., x _{n }に対して、}

{\begin{aligned}&{\widehat {\boldsymbol {\Sigma }}}={1 \over n}\sum _{j=1}^{n}\left(\mathbf {x} _{j}-{\bar {\mathbf {x} }}\right)\left(\mathbf {x} _{j}-{\bar {\mathbf {x} }}\right)^{\mathrm {T} }\\&A={1 \over 6n}\sum _{i=1}^{n}\sum _{j=1}^{n}\left[(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }\;{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{j}-{\bar {\mathbf {x} }})\right]^{3}\\&B={\sqrt {\frac {n}{8k(k+2)}}}\left\{{1 \over n}\sum _{i=1}^{n}\left[(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }\;{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})\right]^{2}-k(k+2)\right\}\end{aligned}}

多変量正規分布の帰無仮説の下では、統計量Aは近似的にカイ二乗分布に従う。1/6⁠ ⋅ k ( k + 1)( k + 2)の自由度があり、 Bはほぼ標準正規分布 N (0,1)になります

マルディアの尖度統計量は歪んでおり、極限正規分布への収束が非常に遅い。中規模の標本数の場合、尖度統計量の漸近分布のパラメータは修正される^[37] 。小規模標本検定（）では、経験的臨界値が用いられる。両統計量の臨界値の表は、レンチャー^{[38]によって}k = 2、3、4について与えられている。 $(50\leq n<400)$ $n<50$

マルディア検定はアフィン不変だが、一貫性がない。例えば、多変量歪度検定は対称的な非正規代替検定に対して一貫性がない。^[39]

BHEP検査

BHEP検定^{[40]は、正規分布の経験的}特性関数と理論的な特性関数の差のノルムを計算する。ノルムの計算は、ガウス重み関数に関する二乗積分可能関数のL ² ( μ )空間で行われる。検定統計量は $\mu _{\beta }(\mathbf {t} )=(2\pi \beta ^{2})^{-k/2}e^{-|\mathbf {t} |^{2}/(2\beta ^{2})}$

{\begin{aligned}T_{\beta }&=\int _{\mathbb {R} ^{k}}\left|{1 \over n}\sum _{j=1}^{n}e^{i\mathbf {t} ^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1/2}(\mathbf {x} _{j}-{\bar {\mathbf {x} )}}}-e^{-|\mathbf {t} |^{2}/2}\right|^{2}\;{\boldsymbol {\mu }}_{\beta }(\mathbf {t} )\,d\mathbf {t} \\&={1 \over n^{2}}\sum _{i,j=1}^{n}e^{-{\beta ^{2} \over 2}(\mathbf {x} _{i}-\mathbf {x} _{j})^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-\mathbf {x} _{j})}-{\frac {2}{n(1+\beta ^{2})^{k/2}}}\sum _{i=1}^{n}e^{-{\frac {\beta ^{2}}{2(1+\beta ^{2})}}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})}+{\frac {1}{(1+2\beta ^{2})^{k/2}}}\end{aligned}}

この検定統計量の限界分布はカイ二乗確率変数の加重和である。^[40]

これらおよびその他の試験手順の詳細な調査が利用可能です。^[41]

多変量正規分布への分類

ガウス判別分析

観測値（ベクトル）が、平均値と共分散が既知の複数の多変量正規分布のいずれかから派生していると仮定する。この場合、任意の観測値は、それが最も高い確率でその分布から発生する分布に割り当てられる。この分類手順はガウス判別分析と呼ばれる。分類性能、すなわち異なる分類結果の確率と全体的な分類誤差は、レイトレーシング法^[17]（Matlabコード）という数値手法によって計算できる。

計算方法

分布から値を抽出する

平均ベクトルμと共分散行列Σを持つN次元多変量正規分布からランダムベクトルxを抽出（サンプリング）する広く使われている方法は、次のように機能します。^[42]

AA ^T = Σを満たす任意の実数行列A を求めよ。Σ が正定値行列の場合、広く利用可能で計算効率が高く、よく知られているコレスキー分解が典型的に用いられる。LAPACK の dpstrf() のようなランク表示（ピボット）コレスキー分解が利用可能な場合は、一般的な半正定値行列の場合にも用いることができる。より低速な一般的な代替手法として、Σのスペクトル分解Σ = UΛU ⁻¹から得られる行列A = UΛ ^1/2を用いる方法がある。
z = ( z ₁ , ..., z _N ) ^{T を}、 N個の 独立した標準正規変量（たとえば、ボックス・ミュラー変換を使用して生成できます）の要素を持つベクトルとします。
x をμ + Azとします。これはアフィン変換の性質により、望ましい分布を持ちます。

参照

カイ分布、多変量正規分布ベクトル（無相関かつゼロ中心）の2 ノルム（ユークリッドノルムまたはベクトル長）のpdf 。
- レイリー分布、二変量正規分布ベクトル（無相関かつゼロ中心）のベクトル長の確率密度関数
- ライス分布、二変量正規分布ベクトル（無相関かつ非中心）のベクトル長のpdf
- ホイト分布、二変量正規分布ベクトル（相関あり中心化）のベクトル長の確率密度関数
複素正規分布、二変量正規分布の応用
Copula、ガウスまたは正規コピュラモデルの定義用。
多変量 t 分布。これは、広く使用されているもう 1 つの球対称多変量分布です。
多変量安定分布は、指数（特性関数の指数）が 0 から 2 までの場合の多変量正規分布の拡張です。
マハラノビス距離
ウィシャート分布
行列正規分布

参考文献

^ abc ラピドス、エイモス (2009).デジタルコミュニケーションの基礎. ケンブリッジ大学出版局. ISBN 978-0-521-19395-5。
^ Gut, Allan (2009).確率論中級コース. Springer. ISBN 978-1-441-90161-3。
^ Kac, M. (1939). 「正規分布の特徴づけについて」. American Journal of Mathematics . 61 (3): 726– 728. doi :10.2307/2371328. JSTOR 2371328.
^ Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). 「p-一般化正規分布の特性評価」. Journal of Multivariate Analysis . 100 (5): 817– 820. doi : 10.1016/j.jmva.2008.07.006 .
^ Simon JD Prince（2012年6月）. 『コンピュータービジョン：モデル、学習、推論』Wayback Machineで2020年10月28日にアーカイブ. Cambridge University Press. 3.7：「多変量正規分布」
^ Kim, M. G. (2000). 「多変量外れ値とマハラノビス距離の分解」. Communications in Statistics – Theory and Methods . 29 (7): 1511– 1526. doi :10.1080/03610920008832559.
^ Hamedani, GG; Tata, MN (1975). 「変数の線形結合分布からの二変量正規分布の決定について」アメリカ数学月刊誌. 82 (9): 913– 915. doi :10.2307/2318494. JSTOR 2318494.
^ Wyatt, John (2008年11月26日). 「線形最小平均二乗誤差推定」(PDF) .応用確率論講義ノート. 2015年10月10日時点のオリジナル(PDF)からアーカイブ。 2012年1月23日閲覧。
^ 「線形代数 - アフィン座標関数間のマッピング」Mathematics Stack Exchange . 2022年6月24日閲覧。
^ ラオ, CR (1973).線形統計推論とその応用. ニューヨーク: ワイリー. pp. 527– 528. ISBN 0-471-70823-2。
^ ab Botev, ZI (2016). 「線形制約下における正規則：ミニマックス傾斜法によるシミュレーションと推定」. Journal of the Royal Statistical Society, Series B. 79 : 125–148 . arXiv : 1603.04166 . Bibcode : 2016arXiv160304166B. doi :10.1111/rssb.12162. S2CID 88515228.
^ Genz, Alan (2009). 多変量正規分布とt分布の確率計算. Springer. ISBN 978-3-642-01689-9。
^ ab Bensimhoun Michael, N次元累積関数、およびガウス分布と正規密度に関するその他の有用な事実 (2006)
^ 塩谷実 (1964). 「多変量正規分布の許容範囲」(PDF) .統計数理学会誌. 16 (1): 135– 153. doi :10.1007/BF02868568. S2CID 123269490.
^ ab Botev, ZI; Mandjes, M.; Ridder, A. (2015年12月6日～9日). 「相関ガウス分布の最大値の裾分布」. 2015年冬季シミュレーション会議 (WSC) . ハンティントンビーチ, カリフォルニア州, 米国: IEEE. pp. 633– 642. doi :10.1109/WSC.2015.7408202. hdl : 10419/130486 . ISBN 978-1-4673-9743-8。
^ Adler, RJ; Blanchet, J.; Liu, J. (2008年12月7日～10日). 「ガウス分布の裾確率の効率的なシミュレーション」. 2008年冬季シミュレーション会議 (WSC) . マイアミ, フロリダ州, 米国: IEEE. pp. 328– 336. doi :10.1109/WSC.2008.4736085. ISBN 978-1-4244-2707-9。
^ abcdefghi Das, Abhranil; Wilson S Geisler (2020). 「多重正規分布を統合し、分類尺度を計算する方法」arXiv : 2012.14331 [stat.ML].
^ Hernandez-Stumpfhauser, Daniel; Breidt, F. Jay; van der Woerd, Mark J. (2017). 「任意次元の一般投影正規分布：モデリングとベイズ推論」.ベイズ分析. 12 (1): 113– 133. doi : 10.1214/15-BA989 .
^ Tong, T. (2010) 多重線形回帰：MLEとその分布結果アーカイブ 2013-06-16 WebCite、講義ノート
^ Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, NJ (1989年5月). 「多変量分布のエントロピー表現とその推定量」. IEEE Transactions on Information Theory . 35 (3): 688– 692. doi :10.1109/18.30996.
^ Duchi, J. 線形代数と最適化の導出(PDF) (論文). p. 13. 2020年7月25日時点のオリジナル(PDF)からのアーカイブ。 2020年8月12日閲覧。
^ 証明: 多変量正規分布の相互情報量
^ MacKay, David JC (2003-10-06).情報理論、推論、学習アルゴリズム（イラスト版）. ケンブリッジ: ケンブリッジ大学出版局. ISBN 978-0-521-64298-9。
^ Holt, W.; Nguyen, D. (2023). ベイズデータ代入の本質的側面（論文）. SSRN 4494314.
^ イートン、モリス L. (1983).多変量統計：ベクトル空間アプローチ. ジョン・ワイリー・アンド・サンズ. pp. 116– 117. ISBN 978-0-471-02776-8。
^ Jensen, J (2000).石油技術者および地質学者のための統計. アムステルダム: エルゼビア. p. 207. ISBN 0-444-50552-0。
^ Maddala, GS (1983).計量経済学における限定従属変数と質的変数. ケンブリッジ大学出版局. ISBN 0-521-33825-5。
^ 周辺分布の代数的計算は、http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html （Wayback Machineに2010年1月17日アーカイブ）で示されています。より簡潔な証明は、https://math.stackexchange.com/a/3832137 で概説されています。
^ Nikolaus Hansen (2016). 「CMA進化戦略：チュートリアル」(PDF) . arXiv : 1604.00772 . Bibcode :2016arXiv160400772H. 2010年3月31日時点のオリジナル(PDF)からアーカイブ。 2012年1月7日閲覧。
^ Daniel Wollschlaeger. 「Hoyt分布（Rパッケージ「shotGroups」バージョン0.6.2のドキュメント）」^{[永久リンク切れ]}
^ Wang, Bin; Shi, Wenzhong; Miao, Zelang (2015-03-13). Rocchini, Duccio (編). 「標準偏差楕円の信頼度分析と高次元ユークリッド空間へのその拡張」. PLOS ONE . 10 (3) e0118537. Bibcode :2015PLoSO..1018537W. doi : 10.1371/journal.pone.0118537 . ISSN 1932-6203. PMC 4358977. PMID 25769048 .
^ ab Holt, W.; Nguyen, D. (2023). ベイズデータ代入入門（論文）. SSRN 4494314.
^ Cox, DR; Small, NJH (1978). 「多変量正規性の検定」Biometrika . 65 (2): 263. doi :10.1093/biomet/65.2.263.
^ Smith, SP; Jain, AK (1988). 「データセットの多変量正規性を決定するための検定」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 10 (5): 757. doi :10.1109/34.6789.
^ Friedman, JH; Rafsky, LC (1979). 「Wald–Wolfowitz検定とSmirnov検定の多変量一般化」. 『統計年報』 . 7 (4): 697. doi : 10.1214/aos/1176344722 .
^ Mardia, KV (1970). 「多変量歪度と尖度の測定とその応用」. Biometrika . 57 (3): 519– 530. doi :10.1093/biomet/57.3.519.
^ レンチャー（1995年）、112～113ページ。
^ レンチャー（1995年）、493-495ページ。
^ Baringhaus, L.; Henze, N. (1991). 「投影に基づく多変量歪度と尖度の測定のための極限分布」. Journal of Multivariate Analysis . 38 : 51–69 . doi : 10.1016/0047-259X(91)90031-V .
^ ab Baringhaus, L.; Henze, N. (1988). 「経験的特性関数に基づく多変量正規性の一貫した検定」Metrika . 35 (1): 339– 348. doi :10.1007/BF02613322. S2CID 122362448.
^ Henze, Norbert (2002). 「多変量正規性の不変検定：批判的レビュー」.統計論文. 43 (4): 467– 506. doi :10.1007/s00362-002-0119-6. S2CID 122934510.
^ Gentle, JE (2009). 計算統計. Statistics and Computing. ニューヨーク: Springer. pp. 315– 316. doi :10.1007/978-0-387-98144-4. ISBN 978-0-387-98143-7。

文学

レンチャー, AC (1995).多変量解析法. ニューヨーク: ワイリー.
Tong, YL (1990).多変量正規分布. Springer Series in Statistics. ニューヨーク: Springer-Verlag. doi :10.1007/978-1-4613-9655-0. ISBN 978-1-4613-9657-4. S2CID 120348131。

[Lapidoth-1] ラピドス、エイモス (2009).デジタルコミュニケーションの基礎. ケンブリッジ大学出版局. ISBN 978-0-521-19395-5。

[Gut-2] Gut, Allan (2009).確率論中級コース. Springer. ISBN 978-1-441-90161-3。

[3] Kac, M. (1939). 「正規分布の特徴づけについて」. American Journal of Mathematics . 61 (3): 726– 728. doi :10.2307/2371328. JSTOR 2371328.

[4] Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). 「p-一般化正規分布の特性評価」. Journal of Multivariate Analysis . 100 (5): 817– 820. doi : 10.1016/j.jmva.2008.07.006 .

[5] Simon JD Prince（2012年6月）. 『コンピュータービジョン：モデル、学習、推論』Wayback Machineで2020年10月28日にアーカイブ. Cambridge University Press. 3.7：「多変量正規分布」

[6] Kim, M. G. (2000). 「多変量外れ値とマハラノビス距離の分解」. Communications in Statistics – Theory and Methods . 29 (7): 1511– 1526. doi :10.1080/03610920008832559.

[HT-7] Hamedani, GG; Tata, MN (1975). 「変数の線形結合分布からの二変量正規分布の決定について」アメリカ数学月刊誌. 82 (9): 913– 915. doi :10.2307/2318494. JSTOR 2318494.

[wyattlms-8] Wyatt, John (2008年11月26日). 「線形最小平均二乗誤差推定」(PDF) .応用確率論講義ノート. 2015年10月10日時点のオリジナル(PDF)からアーカイブ。 2012年1月23日閲覧。

[9] 「線形代数 - アフィン座標関数間のマッピング」Mathematics Stack Exchange . 2022年6月24日閲覧。

[rao-10] ラオ, CR (1973).線形統計推論とその応用. ニューヨーク: ワイリー. pp. 527– 528. ISBN 0-471-70823-2。

[bo16-11] Botev, ZI (2016). 「線形制約下における正規則：ミニマックス傾斜法によるシミュレーションと推定」. Journal of the Royal Statistical Society, Series B. 79 : 125–148 . arXiv : 1603.04166 . Bibcode : 2016arXiv160304166B. doi :10.1111/rssb.12162. S2CID 88515228.

[Genz-12] Genz, Alan (2009). 多変量正規分布とt分布の確率計算. Springer. ISBN 978-3-642-01689-9。

[Bensimhoun-13] Bensimhoun Michael, N次元累積関数、およびガウス分布と正規密度に関するその他の有用な事実 (2006)

[Siotani-14] 塩谷実 (1964). 「多変量正規分布の許容範囲」(PDF) .統計数理学会誌. 16 (1): 135– 153. doi :10.1007/BF02868568. S2CID 123269490.

[bmr15-15] Botev, ZI; Mandjes, M.; Ridder, A. (2015年12月6日～9日). 「相関ガウス分布の最大値の裾分布」. 2015年冬季シミュレーション会議 (WSC) . ハンティントンビーチ, カリフォルニア州, 米国: IEEE. pp. 633– 642. doi :10.1109/WSC.2015.7408202. hdl : 10419/130486 . ISBN 978-1-4673-9743-8。

[abl08-16] Adler, RJ; Blanchet, J.; Liu, J. (2008年12月7日～10日). 「ガウス分布の裾確率の効率的なシミュレーション」. 2008年冬季シミュレーション会議 (WSC) . マイアミ, フロリダ州, 米国: IEEE. pp. 328– 336. doi :10.1109/WSC.2008.4736085. ISBN 978-1-4244-2707-9。

[Das-17] Das, Abhranil; Wilson S Geisler (2020). 「多重正規分布を統合し、分類尺度を計算する方法」arXiv : 2012.14331 [stat.ML].

[Hernandez-Stumpfhauser-18] Hernandez-Stumpfhauser, Daniel; Breidt, F. Jay; van der Woerd, Mark J. (2017). 「任意次元の一般投影正規分布：モデリングとベイズ推論」.ベイズ分析. 12 (1): 113– 133. doi : 10.1214/15-BA989 .

[19] Tong, T. (2010) 多重線形回帰：MLEとその分布結果アーカイブ 2013-06-16 WebCite、講義ノート

[20] Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, NJ (1989年5月). 「多変量分布のエントロピー表現とその推定量」. IEEE Transactions on Information Theory . 35 (3): 688– 692. doi :10.1109/18.30996.

[21] Duchi, J. 線形代数と最適化の導出(PDF) (論文). p. 13. 2020年7月25日時点のオリジナル(PDF)からのアーカイブ。 2020年8月12日閲覧。

[22] 証明: 多変量正規分布の相互情報量

[23] MacKay, David JC (2003-10-06).情報理論、推論、学習アルゴリズム（イラスト版）. ケンブリッジ: ケンブリッジ大学出版局. ISBN 978-0-521-64298-9。

[24] Holt, W.; Nguyen, D. (2023). ベイズデータ代入の本質的側面（論文）. SSRN 4494314.

[eaton-25] イートン、モリス L. (1983).多変量統計：ベクトル空間アプローチ. ジョン・ワイリー・アンド・サンズ. pp. 116– 117. ISBN 978-0-471-02776-8。

[26] Jensen, J (2000).石油技術者および地質学者のための統計. アムステルダム: エルゼビア. p. 207. ISBN 0-444-50552-0。

[Maddala83-27] Maddala, GS (1983).計量経済学における限定従属変数と質的変数. ケンブリッジ大学出版局. ISBN 0-521-33825-5。

[28] 周辺分布の代数的計算は、http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html （Wayback Machineに2010年1月17日アーカイブ）で示されています。より簡潔な証明は、https://math.stackexchange.com/a/3832137 で概説されています。

[29] Nikolaus Hansen (2016). 「CMA進化戦略：チュートリアル」(PDF) . arXiv : 1604.00772 . Bibcode :2016arXiv160400772H. 2010年3月31日時点のオリジナル(PDF)からアーカイブ。 2012年1月7日閲覧。

[30] Daniel Wollschlaeger. 「Hoyt分布（Rパッケージ「shotGroups」バージョン0.6.2のドキュメント）」^{[永久リンク切れ]}

[31] Wang, Bin; Shi, Wenzhong; Miao, Zelang (2015-03-13). Rocchini, Duccio (編). 「標準偏差楕円の信頼度分析と高次元ユークリッド空間へのその拡張」. PLOS ONE . 10 (3) e0118537. Bibcode :2015PLoSO..1018537W. doi : 10.1371/journal.pone.0118537 . ISSN 1932-6203. PMC 4358977. PMID 25769048 .

[papers.ssrn.com-32] Holt, W.; Nguyen, D. (2023). ベイズデータ代入入門（論文）. SSRN 4494314.

[33] Cox, DR; Small, NJH (1978). 「多変量正規性の検定」Biometrika . 65 (2): 263. doi :10.1093/biomet/65.2.263.

[34] Smith, SP; Jain, AK (1988). 「データセットの多変量正規性を決定するための検定」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 10 (5): 757. doi :10.1109/34.6789.

[35] Friedman, JH; Rafsky, LC (1979). 「Wald–Wolfowitz検定とSmirnov検定の多変量一般化」. 『統計年報』 . 7 (4): 697. doi : 10.1214/aos/1176344722 .

[Mardia-36] Mardia, KV (1970). 「多変量歪度と尖度の測定とその応用」. Biometrika . 57 (3): 519– 530. doi :10.1093/biomet/57.3.519.

[37] レンチャー（1995年）、112～113ページ。

[38] レンチャー（1995年）、493-495ページ。

[39] Baringhaus, L.; Henze, N. (1991). 「投影に基づく多変量歪度と尖度の測定のための極限分布」. Journal of Multivariate Analysis . 38 : 51–69 . doi : 10.1016/0047-259X(91)90031-V .

[BH-40] Baringhaus, L.; Henze, N. (1988). 「経験的特性関数に基づく多変量正規性の一貫した検定」Metrika . 35 (1): 339– 348. doi :10.1007/BF02613322. S2CID 122362448.

[Henze-41] Henze, Norbert (2002). 「多変量正規性の不変検定：批判的レビュー」.統計論文. 43 (4): 467– 506. doi :10.1007/s00362-002-0119-6. S2CID 122934510.

[Gentle-42] Gentle, JE (2009). 計算統計. Statistics and Computing. ニューヨーク: Springer. pp. 315– 316. doi :10.1007/978-0-387-98144-4. ISBN 978-0-387-98143-7。

多変量正規分布
確率密度関数およびの多変量正規分布からの多数のサンプルポイントが、3 シグマ楕円、2 つの周辺分布、および 2 つの 1 次元ヒストグラムとともに表示されます。 ${\boldsymbol {\mu }}=\left[{\begin{smallmatrix}0\\0\end{smallmatrix}}\right]$ ${\boldsymbol {\Sigma }}=\left[{\begin{smallmatrix}1&3/5\\3/5&2\end{smallmatrix}}\right]$
表記	${\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})$
パラメータ	μ ∈ R ^k —位置 Σ ∈ R ^{k × k} —共分散(正の半定値行列)
サポート	x ∈ μ + スパン( Σ ) ⊆ R ^k
PDF	$(2\pi )^{-k/2}\det({\boldsymbol {\Sigma }})^{-1/2}\,\exp \left(-{\frac {1}{2}}(\mathbf {x} -{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})\right),$ Σが正定値の場合にのみ存在する
平均	μ
モード	μ
分散	Σ
エントロピ	${\frac {k}{2}}\log {\mathord {\left(2\pi \mathrm {e} \right)}}+{\frac {1}{2}}\log \det {\mathord {\left({\boldsymbol {\Sigma }}\right)}}$
MGF	$\exp \!{\Big (}{\boldsymbol {\mu }}^{\mathrm {T} }\mathbf {t} +{\tfrac {1}{2}}\mathbf {t} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {t} {\Big )}$
CF	$\exp \!{\Big (}i{\boldsymbol {\mu }}^{\mathrm {T} }\mathbf {t} -{\tfrac {1}{2}}\mathbf {t} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {t} {\Big )}$
カルバック・ライブラー距離	§ カルバック・ライブラー距離を参照