標本平均と共分散

標本平均（標本平均）または経験平均（経験平均）、および標本共分散または経験共分散は、 1 つ以上のランダム変数のデータの標本から計算される統計です。

標本平均とは、より大きな数値の母集団から抽出された標本の数値の平均値（または平均値）です。ここで「母集団」とは、人数ではなく、収集されたかどうかにかかわらず、関連するデータ全体を指します。便宜上、母集団、つまり 500 社すべての売上高を見る代わりに、フォーチュン 500社から 40 社の売上高の標本を使用できます。標本平均は、母集団全体の平均値である母平均の推定値として使用され、標本が大きく代表的であればあるほど、推定値は母平均に近くなる可能性が高くなります。標本平均の信頼性は標準誤差を使用して推定され、標準誤差は標本の分散を使用して計算されます。標本がランダムである場合、標準誤差は標本のサイズとともに低下し、標本サイズが大きくなるにつれて標本平均の分布は正規分布に近づきます。

「標本平均」という用語は、統計学者が標本内の複数の変数の値、例えばフォーチュン500企業の売上高、利益、従業員数といった値を調べる際に、平均値のベクトルを指すためにも使用されます。この場合、各変数の標本分散だけでなく、各変数ペア間の関係を示す標本分散共分散行列（または単に共分散行列）も存在します。3つの変数を考慮している場合、これは3×3行列になります。標本共分散は、推定値としての標本平均の信頼性を判断する際に有用であり、また母集団共分散行列の推定値としても有用です。

計算が容易であることやその他の望ましい特性のため、標本平均と標本共分散は、標本内の値の分布の位置と分散を表し、母集団の値を推定するために統計で広く使用されています。

標本平均の定義

標本平均とは、標本に含まれる変数の値の平均であり、それらの値の合計を値の個数で割ったものです。数学的記法を用いると、変数Xについて母集団からN個の観測値を標本として抽出した場合、標本平均は次のようになります。

{\bar {X}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}.

この定義によれば、標本(1, 4, 1)が母集団(1, 1, 3, 4, 0, 2, 1, 0)から抽出された場合、標本平均はとなり、母集団平均はとなります。標本がランダムであっても、それが完全に代表的であることは稀であり、たとえ標本がすべて同じ母集団から抽出されたとしても、他の標本は異なる標本平均を持つ可能性があります。例えば、標本(2, 1, 0)の標本平均は1になります。 ${\bar {x}}=(1+4+1)/3=2$ $\mu =(1+1+3+4+0+2+1+0)/8=12/8=1.5$

統計学者が1つの変数ではなくK個の変数に着目し、各観測値がK個の変数それぞれに値を持つ場合、全体の標本平均は個々の変数のK個の標本平均から構成されます。j^番目の確率変数（j =1,..., K ）におけるi^番目の独立に抽出された観測値（i =1,..., N ）をとします。これらの観測値は、それぞれK個の要素を持つN列ベクトルに配列することができ、 K ×1列ベクトルは、（i =1,..., N ）で示されるすべての変数のi番目の観測値を表します。 $x_{ij}$ $\mathbf {x} _{i}$

標本平均ベクトルは、 j番目の要素がj^{番目の変数の}N個の観測値の平均値である列ベクトルです。 $\mathbf {\bar {x}}$ ${\bar {x}}_{j}$

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

したがって、標本平均ベクトルは各変数の観測値の平均を含み、次のように表される。

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}={\begin{bmatrix}{\bar {x}}_{1}\\\vdots \\{\bar {x}}_{j}\\\vdots \\{\bar {x}}_{K}\end{bmatrix}}

標本共分散の定義

標本共分散行列は、 K行K列の 行列であり、 $\textstyle \mathbf {Q} =\left[q_{jk}\right]$

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right),

ここで、はデータの母集団における $j$ ^番目の変数と $k$ ^番目の変数間の共分散の推定値である。観測ベクトルに関して言えば、標本共分散は $q_{jk}$

\mathbf {Q} ={1 \over {N-1}}\sum _{i=1}^{N}(\mathbf {x} _{i}.-\mathbf {\bar {x}} )(\mathbf {x} _{i}.-\mathbf {\bar {x}} )^{\mathrm {T} },

あるいは、観測ベクトルを行列の列として配置すると、

\mathbf {F} ={\begin{bmatrix}\mathbf {x} _{1}&\mathbf {x} _{2}&\dots &\mathbf {x} _{N}\end{bmatrix}}

、

これはK行N列の行列である。ここで標本共分散行列は次のように計算できる。

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })(\mathbf {F} -\mathbf {\bar {x}} \,\mathbf {1} _{N}^{\mathrm {T} })^{\mathrm {T} }

、

ここではN行 $1$ 列のベクトルである。観測値が列ではなく行に並べられている場合、は 1 × K行ベクトルとなり、はN × K行列で、その列jは変数jのN 個の観測値のベクトルである。適切な場所に転置を適用すると、次の式が得られる。 $\mathbf {1} _{N}$ $\mathbf {\bar {x}}$ $\mathbf {M} =\mathbf {F} ^{\mathrm {T} }$

\mathbf {Q} ={\frac {1}{N-1}}(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} )^{\mathrm {T} }(\mathbf {M} -\mathbf {1} _{N}\mathbf {\bar {x}} ).

ランダムベクトルの共分散行列と同様に、標本共分散行列は半正定値行列です。これを証明するために、任意の行列に対して行列が半正定値行列であることに注目してください。さらに、共分散行列が正定値行列となるのは、ベクトルの階数がKである場合のみです。 $\mathbf {A}$ $\mathbf {A} ^{T}\mathbf {A}$ $\mathbf {x} _{i}.-\mathbf {\bar {x}}$

偏見のなさ

標本平均と標本共分散行列は、ランダムベクトルの平均と共分散行列の不偏推定値である。ランダムベクトルとは、j^番目の要素（j = 1, ..., K）がランダム変数の1つである行ベクトルである。^[1]標本共分散行列の分母には、ベッセル補正の変形ではなく、次の式で表される。つまり、標本共分散は各観測値と標本平均の差に依存しているが、標本平均はすべての観測値で定義されているため、各観測値とわずかに相関している。母平均が既知である場合、同様の不偏推定値は $\textstyle \mathbf {X}$ $\textstyle N-1$ $\textstyle N$ $\operatorname {E} (\mathbf {X} )$

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

母平均を用いると、分母にが入ります。これは、確率と統計において、確率変数（大文字）と確率変数の実現値（小文字）を区別することが不可欠である理由の一例です。 $\textstyle N$

共分散の最大尤度推定値

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right)

ガウス分布の場合も、分母にNが含まれます。1/ Nと1/( N − 1) の比はN が大きいほど1に近づくため、標本数が多い場合、最尤推定値は不偏推定値とほぼ等しくなります。

標本平均の分布

各確率変数について、標本平均は母平均の優れた推定値となります。ここで「優れた」推定値とは、効率的かつ偏りのないものと定義されます。もちろん、同じ分布から抽出された異なる標本は異なる標本平均を与え、したがって真の平均の推定値も異なるため、推定値は母平均の真の値とは一致しない可能性があります。したがって、標本平均は定数ではなく確率変数であり、結果として独自の分布を持ちます。

μを母平均、μを母分散とすると、母集団から抽出したn個の独立した観測値のランダム標本について、標本平均の期待値は $\sigma ^{2}$

\operatorname {E} ({\bar {x}})=\mu

そして標本平均の分散は

\operatorname {var} ({\bar {x}})={\frac {\sigma ^{2}}{n}}.

サンプルが独立しておらず相関している場合は、疑似複製の問題を回避するために特別な注意を払う必要があります。

母集団が正規分布している場合、標本平均は次のように正規分布します。

{\bar {x}}\thicksim N\left\{\mu ,{\frac {\sigma ^{2}}{n}}\right\}.

母集団が正規分布しない場合でも、nが大きく σ ² / n < +∞であれば、標本平均は近似的に正規分布する。これは中心極限定理の帰結である。

加重サンプル

重み付き標本では、各ベクトル（ K個の確率変数それぞれにおける単一観測値の集合）に重みが割り当てられます。一般性を損なうことなく、重みが正規化されていると仮定します。 $\textstyle {\textbf {x}}_{i}$ $\textstyle w_{i}\geq 0$

\sum _{i=1}^{N}w_{i}=1.

（そうでない場合は、重みをその合計で割ります。）すると、加重平均ベクトルは次のように与えられます。 $\textstyle \mathbf {\bar {x}}$

\mathbf {\bar {x}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.

重み付き共分散行列の要素は^[2]である。 $q_{jk}$ $\textstyle \mathbf {Q}$

q_{jk}={\frac {1}{1-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(x_{ij}-{\bar {x}}_{j}\right)\left(x_{ik}-{\bar {x}}_{k}\right).

すべての重みが同じ場合、加重平均と共分散は、上記の（偏りのある）標本平均と共分散に減少します。 $\textstyle w_{i}=1/N$

批判

標本平均値と標本共分散はロバスト統計量ではないため、外れ値の影響を受けやすい。ロバスト性は、特に実世界の応用においては望ましい特性であることが多いため、ロバストな代替手法、例えば位置の標本中央値^[3]や分散の四分位範囲（IQR）などの分位値ベースの統計量が望ましい場合がある。その他の代替手法としては、トリミング平均やウィンザライズ平均などのトリミングやウィンザライズがある。

参照

参考文献

^ リチャード・アーノルド・ジョンソン、ディーン・W・ウィチャーン（2007年）『応用多変量統計分析』ピアソン・プレンティス・ホール、ISBN 978-0-13-187715-3. 2012年8月10日閲覧。
^ Mark Galassi、Jim Davies、James Theiler、Brian Gough、Gerard Jungman、Michael Booth、Fabrice Rossi。GNU Scientific Library - リファレンスマニュアル、バージョン2.6、2021年。セクション統計：加重サンプル
^ The World Question Center 2006: The Sample Mean Archived 2019-07-12 at the Wayback Machine、Bart Kosko

[JohnsonWichern2007-1] リチャード・アーノルド・ジョンソン、ディーン・W・ウィチャーン（2007年）『応用多変量統計分析』ピアソン・プレンティス・ホール、ISBN 978-0-13-187715-3. 2012年8月10日閲覧。

[Galassi-2021-GSL-2] Mark Galassi、Jim Davies、James Theiler、Brian Gough、Gerard Jungman、Michael Booth、Fabrice Rossi。GNU Scientific Library - リファレンスマニュアル、バージョン2.6、2021年。セクション統計：加重サンプル

[3] The World Question Center 2006: The Sample Mean Archived 2019-07-12 at the Wayback Machine、Bart Kosko