加重算術平均

加重算術平均は通常の算術平均（最も一般的な平均の種類）に似ていますが、各データポイントが最終平均に均等に寄与するのではなく、一部のデータポイントが他のデータポイントよりも大きく寄与する点が異なります。加重平均の概念は記述統計において重要な役割を果たしており、数学の他のいくつかの分野でもより一般的な形で用いられています。

すべての重みが等しい場合、加重平均は算術平均と同じになります。加重平均は一般的に算術平均と同様の挙動を示しますが、シンプソンのパラドックスに見られるように、直感に反する特性がいくつかあります。

例

基本的な例

2 つの学校クラス ( 1 つは生徒が 20 人、もう 1 つは生徒が 30 人 )があり、各クラスのテストの成績は次のようになります。

午前のクラス = {62、67、71、74、76、77、78、79、79、80、80、81、81、82、83、84、86、89、93、98}

午後のクラス = {81、82、83、84、85、86、87、87、88、88、89、89、89、90、90、90、90、90、91、91、91、92、92、93、93、94、95、96、97、98、99}

午前クラスの平均点は80点、午後クラスの平均点は90点です。2つの平均値の加重平均は85点です。しかし、これは各クラスの生徒数の違い（20名と30名）を考慮していないため、85という値はクラスに関わらず生徒の平均成績を反映していません。生徒の平均成績は、クラスに関係なくすべての成績を平均化することで算出できます（すべての成績を合計し、生徒総数で割る）。 ${\bar {x}}={\frac {4300}{50}}=86.$

あるいは、各クラスの生徒数に応じてクラス平均に重み付けすることでも実現できます。人数が多いクラスにはより大きな「重み」が与えられます。

{\bar {x}}={\frac {(20\times 80)+(30\times 90)}{20+30}}=86.

このように、加重平均を用いることで、各生徒の成績を知らなくても、生徒の平均成績を求めることができます。必要なのは、クラス平均と各クラスの生徒数だけです。

凸結合の例

相対的な重みのみが関係するため、任意の加重平均は合計が1になる係数を用いて表すことができます。このような線形結合は凸結合と呼ばれます。

前の例を使用すると、次の重みが得られます。

{\frac {20}{20+30}}=0.4

{\frac {30}{20+30}}=0.6

次に、次のように重みを適用します。

{\bar {x}}=(0.4\times 80)+(0.6\times 90)=86.

数学的な定義

正式には、対応する非負の重みを持つ、空でない有限のデータの組の加重平均は、 $\left(x_{1},x_{2},\dots ,x_{n}\right)$ $\left(w_{1},w_{2},\dots ,w_{n}\right)$

{\bar {x}}={\frac {\sum \limits _{i=1}^{n}w_{i}x_{i}}{\sum \limits _{i=1}^{n}w_{i}}},

これは次のように展開されます。

{\bar {x}}={\frac {w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{n}x_{n}}{w_{1}+w_{2}+\cdots +w_{n}}}.

したがって、重みの高いデータ要素は、重みの低いデータ要素よりも加重平均に大きく寄与します。式が成立するためには、重みは負であってはなりません^[a]。一部はゼロになる場合もありますが、すべてがゼロになるわけではありません（ゼロ除算は許可されていないため）。

重みを正規化して合計が1になるようにすると、式は簡略化されます。つまり、となります。このように正規化された重みの場合、加重平均は次の式と等価です。 ${\textstyle \sum \limits _{i=1}^{n}{w_{i}'}=1}$

{\bar {x}}=\sum \limits _{i=1}^{n}{w_{i}'x_{i}}

。

元の重みに対して次の変換を行うことで、重みを常に正規化できます。

w_{i}'={\frac {w_{i}}{\sum \limits _{j=1}^{n}{w_{j}}}}

。

通常平均は、すべてのデータの重みが等しい加重平均の特殊なケースです。 ${\textstyle {\frac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}}$

データ要素が独立しており、分散を持つ同一に分布するランダム変数である場合、加重平均の標準誤差は、不確実性伝播によって次のように示されます。 $\sigma ^{2}$ $\sigma _{\bar {x}}$

{\textstyle \sigma _{\bar {x}}=\sigma {\sqrt {\sum \limits _{i=1}^{n}w_{i}'^{2}}}}

分散定義の重み

各要素が既知の分散を持つ異なる確率分布から来ている可能性があり、すべて同じ平均を持つデータのリストの加重平均の場合、重みの可能な選択肢の1つは分散の逆数です。 $x_{i}$ $\sigma _{i}^{2}$

w_{i}={\frac {1}{\sigma _{i}^{2}}}.

この場合の加重平均は次のようになります。

{\bar {x}}={\frac {\sum _{i=1}^{n}\left({\dfrac {x_{i}}{\sigma _{i}^{2}}}\right)}{\sum _{i=1}^{n}{\dfrac {1}{\sigma _{i}^{2}}}}}={\frac {\sum _{i=1}^{n}\left(x_{i}\cdot w_{i}\right)}{\sum _{i=1}^{n}w_{i}}},

加重平均（逆分散重み付き）の標準誤差は次のようになります。

\sigma _{\bar {x}}={\sqrt {\frac {1}{\sum _{i=1}^{n}\sigma _{i}^{-2}}}}={\sqrt {\frac {1}{\sum _{i=1}^{n}w_{i}}}},

これは、すべてののとき、となることに注意してください。これは、前のセクションの一般公式の特別な場合です。 $\sigma _{\bar {x}}^{2}=\sigma _{0}^{2}/n$ $\sigma _{i}=\sigma _{0}$

\sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}={\frac {\sum _{i=1}^{n}{\sigma _{i}^{-4}\sigma _{i}^{2}}}{\left(\sum _{i=1}^{n}\sigma _{i}^{-2}\right)^{2}}}.

上記の式を組み合わせると次の式が得られます。

{\bar {x}}=\sigma _{\bar {x}}^{2}\sum _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}}.

この選択の重要性は、この加重平均が、確率分布が独立しており、同じ平均で正規分布しているという仮定の下で、確率分布の平均の最大尤度推定値であるということです。

統計的特性

期待

加重標本平均は、それ自体が確率変数です。その期待値と標準偏差は、観測値の期待値と標準偏差と以下のように関係しています。簡略化のため、正規化された重み（重みの合計が1になる）を仮定します。 ${\bar {x}}$

観測値が期待値を持つ場合、加重標本平均の期待値は特に、平均が等しい場合、加重標本平均の期待値はその値となる。 $E(x_{i})={\mu _{i}},$ $E({\bar {x}})=\sum _{i=1}^{n}{w_{i}'\mu _{i}}.$ $\mu _{i}=\mu$ $E({\bar {x}})=\mu .$

分散

単純なiidケース

重みを定数として扱い、相関のないランダム変数からのn個の観測値のサンプルがあり、すべて同じ分散と期待値を持つ場合（ iidランダム変数の場合と同様）、加重平均の分散は、加重されていない分散とキッシュの設計効果の乗算として推定できます（証明を参照）。

\operatorname {Var} ({\bar {y}}_{w})={\hat {\sigma }}_{y}^{2}{\frac {\overline {w^{2}}}{{\bar {w}}^{2}}}

、、および ${\hat {\sigma }}_{y}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}{n-1}}$ ${\bar {w}}={\frac {\sum _{i=1}^{n}w_{i}}{n}}$ ${\overline {w^{2}}}={\frac {\sum _{i=1}^{n}w_{i}^{2}}{n}}$

しかし、この推定は、 y観測値に関する強い仮定のために、かなり限定的です。そのため、より一般的な代替推定値が開発されました。

調査サンプルの観点

モデルベースの観点からは、異なる変数がIID確率変数ではない場合の加重平均の分散を推定することに関心があります。この問題に対する別の視点は、不等確率（復元あり）で単位が選択される、データの任意標本抽出設計です。^[1]^{: 306} $y_{i}$

調査手法において、関心のある数量yの母平均は、母集団内のすべての要素におけるyの合計（ Yまたは場合によってはT）の推定値を、既知（）または推定値（）の母集団サイズで割ることによって計算されます。この文脈では、yの各値は定数とみなされ、変動は選択手順に起因します。これは、ランダム性が y 値で記述されることが多い「モデルベース」のアプローチとは対照的です。調査サンプリング手順では、ベルヌーイ指標値（）の系列が生成されます。これらの値は、ある観測値iがサンプルに含まれている場合は 1、選択されていない場合は 0 となります。これは、固定サンプルサイズ、またはサンプルサイズが変動するサンプリング（例：ポアソンサンプリング）で発生します。あるサンプルが与えられた場合、ある要素が選択される確率はと表され、一回抽出で選択される確率はです（N が非常に大きく、各要素が非常に小さい場合）。以下の導出では、各要素が選択される確率はこれらの確率によって完全に表されると仮定します。^[2]^{: 42, 43, 51}すなわち、ある要素を選択しても、別の要素が抽出される確率には影響しません（これはクラスターサンプリング設計などには適用されません）。 $N$ ${\hat {N}}$ $I_{i}$ $P(I_{i}=1\mid {\text{Some sample of size }}n)=\pi _{i}$ $P(I_{i}=1|{\text{one sample draw}})=p_{i}\approx {\frac {\pi _{i}}{n}}$ $p_{i}$

各要素（）は固定されており、ランダム性は標本に含まれるかどうか（）によって生じるため、これら2つの要素の積、つまりランダム変数についてよく言及されます。以降のセクションでの混乱を避けるため、この項をと呼びましょう。期待値は、分散はです。 $y_{i}$ $I_{i}$ $y'_{i}=y_{i}I_{i}$ $E[y'_{i}]=y_{i}E[I_{i}]=y_{i}\pi _{i}$ $V[y'_{i}]=y_{i}^{2}V[I_{i}]=y_{i}^{2}\pi _{i}(1-\pi _{i})$

標本の各要素がその選択確率の逆数で膨張した場合、それは-展開y値と呼ばれます。すなわち：。関連する量は-展開y値です：。^[2]^{： 42, 43, 51, 52}上と同様に、指標関数を乗じる場合はチェックマークを付けることができます。すなわち： $\pi$ ${\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}$ $p$ ${\frac {y_{i}}{p_{i}}}=n{\check {y}}_{i}$ ${\check {y}}'_{i}=I_{i}{\check {y}}_{i}={\frac {I_{i}y_{i}}{\pi _{i}}}$

この設計に基づく観点では、加重平均の分子に使用される重みは、選択確率（つまりインフレ係数）の逆数を取ることで得られます。つまり、 $w_{i}={\frac {1}{\pi _{i}}}\approx {\frac {1}{n\times p_{i}}}$

加重和の分散（パワー-合計の推定値)

母集団のサイズNがわかっている場合は、を使用して母集団の平均を推定できます。 ${\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}\approx {\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}$

サンプリング設計によって固定サンプルサイズnが得られる場合( pps サンプリングなど)、この推定値の分散は次のようになります。

\operatorname {Var} \left({\hat {\bar {Y}}}_{{\text{known }}N}\right)={\frac {1}{N^{2}}}{\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}

証拠

一般的な式は次のように展開できます。

{\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}}{N}}\approx {\frac {\sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}}{N}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}.

母集団合計はと表記され、これは（不偏）Horvitz–Thompson推定量（-推定量とも呼ばれる）によって推定できる。この推定量自体は、 pwr推定量（すなわち、-展開復元推定量、または「復元確率」推定量）を用いて推定することができる。上記の表記を用いると、となる。^[2]^{: 51} $Y=\sum _{i=1}^{N}y_{i}$ $\pi$ $p$ ${\hat {Y}}_{pwr}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}=\sum _{i=1}^{n}{\frac {y'_{i}}{np_{i}}}\approx \sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}=\sum _{i=1}^{n}w_{i}y'_{i}$

pwr推定値の推定分散は次のように与えられる: ^[2]^{: 52}ここで。 $\operatorname {Var} ({\hat {Y}}_{pwr})={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}$ ${\overline {wy}}=\sum _{i=1}^{n}{\frac {w_{i}y_{i}}{n}}$

上記の式はSarndal et al. (1992) (Cochran 1977にも掲載) から引用したものですが、書き方が異なります。^[2]^{: 52}^[1]^{: 307 (11.35)}左側は分散の書き方、右側は重み付けバージョンを作成した方法です。

${\begin{aligned}\operatorname {Var} ({\hat {Y}}_{\text{pwr}})&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {y_{i}}{p_{i}}}-{\hat {Y}}_{pwr}\right)^{2}\\&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {n}{n}}{\frac {y_{i}}{p_{i}}}-{\frac {n}{n}}\sum _{i=1}^{n}w_{i}y_{i}\right)^{2}={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(n{\frac {y_{i}}{\pi _{i}}}-n{\frac {\sum _{i=1}^{n}w_{i}y_{i}}{n}}\right)^{2}\\&={\frac {n^{2}}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\\&={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\end{aligned}}$

そして、上記の式にたどり着きました。

ランダムサンプルサイズ（ポアソンサンプリングなど）のサンプリングの場合の代替用語は、Sarndal et al.（1992）で次のように提示されています。^[2]^：182

$\operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)$

となる。また、iとjの両方を選択する確率はとなる。 ^[2]^{: 36}また、i=jの場合、となる。^[2]^{: 43} ${\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}$ $C(I_{i},I_{j})=\pi _{ij}-\pi _{i}\pi _{j}=\Delta _{ij}$ $\pi _{ij}$ ${\check {\Delta }}_{ij}=1-{\frac {\pi _{i}\pi _{j}}{\pi _{ij}}}$ ${\check {\Delta }}_{ii}=1-{\frac {\pi _{i}\pi _{i}}{\pi _{i}}}=1-\pi _{i}$

選択確率が無相関（すなわち、）であり、各要素の確率が非常に小さいと仮定すると、次のようになります。 $\forall i\neq j:C(I_{i},I_{j})=0$

\operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}

証拠

我々はそれを仮定し、 $(1-\pi _{i})\approx 1$ ${\begin{aligned}\operatorname {Var} ({\hat {Y}}_{{\text{pwr (known }}N{\text{)}}})&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left({\check {\Delta }}_{ii}{\check {y}}_{i}{\check {y}}_{i}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}}{\pi _{i}}}{\frac {y_{i}}{\pi _{i}}}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}\end{aligned}}$

加重平均の分散（ $π$ -比率平均の推定値)

前の節では、母集団の推定総数 ( ) と既知の母集団サイズ ( )の比として母集団平均を推定し、その状況で分散を推定する方法について説明しました。もう 1 つのよくあるケースは、母集団サイズ自体 ( ) が未知であり、標本 (つまり) を使用して推定される場合です。の推定値は、重みの合計として記述できます。したがってを得た場合、となります。上記の表記法では、関心のあるパラメータはs と 1 の合計の比です。つまりです。これは、標本を使用して次のように推定できます。N から n の使用に移行したため、実際にはすべての指標変数が 1 になることがわかっているため、単にと記述できます。これは、y と w の特定の値に対する推定値となりますが、統計的な特性は指標変数を含めたときに得られます。^[2]^{: 162, 163, 176} ${\hat {Y}}$ $N$ $N$ ${\hat {N}}$ $N$ $w_{i}={\frac {1}{\pi _{i}}}$ ${\hat {N}}=\sum _{i=1}^{n}w_{i}I_{i}=\sum _{i=1}^{n}{\frac {I_{i}}{\pi _{i}}}=\sum _{i=1}^{n}{\check {1}}'_{i}$ $y_{i}$ $R={\bar {Y}}={\frac {\sum _{i=1}^{N}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}_{i}}{\sum _{i=1}^{N}{\check {1}}_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y_{i}}{\sum _{i=1}^{N}w_{i}}}$ ${\hat {R}}={\hat {\bar {Y}}}={\frac {\sum _{i=1}^{N}I_{i}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}I_{i}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}'_{i}}{\sum _{i=1}^{N}{\check {1}}'_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y'_{i}}{\sum _{i=1}^{N}w_{i}1'_{i}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}={\bar {y}}_{w}$ ${\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y_{i}}{\sum _{i=1}^{n}w_{i}}}$ ${\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}$

これは比推定量と呼ばれ、 Rに対してほぼ不偏である。^[2]^{: 182}

この場合、比率の変動性は分子と分母の両方のランダム変数の変動性とそれらの相関に依存します。この分散を計算するための閉じた解析形式は存在しないため、近似推定には様々な手法が用いられます。主にテイラー級数一次線形化、漸近解析、ブートストラップ/ジャックナイフ法などが用いられます。^[2]^{: 172}テイラー線形化法は、一般に小さなサンプルサイズでは分散を過小評価する可能性がありますが、これは統計量の複雑さに依存します。加重平均の場合、近似分散は中程度のサンプルサイズでも比較的正確であると考えられます。^[2]^{: 176}サンプリングがランダムなサンプルサイズの場合（ポアソンサンプリングなど）、以下のようになります。^[2]^{: 182}

{\widehat {V({\bar {y}}_{w})}}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}

。

の場合、とのどちらを用いても同じ推定値が得られます。これは、何らかの係数を乗じることで同じ推定値が得られるためです。また、重みの合計を、事前に既知の母集団サイズNと等しくなるようにスケールすると、分散の計算結果も同じになります。すべての重みが互いに等しい場合、この式は標準的な不偏分散推定値に簡約されます。 $\pi _{i}\approx p_{i}n$ $w_{i}={\frac {1}{\pi _{i}}}$ $w_{i}={\frac {1}{p_{i}}}$ $w_{i}$

証拠

テイラー線形化によれば、2つの和（）の一般的な比推定値は真の値Rの周りに展開でき、次の式が得られる：^[2]^：178 ${\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}$

${\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}z'_{i}}}\approx R+{\frac {1}{Z}}\sum _{i=1}^{n}\left({\frac {y'_{i}}{\pi _{i}}}-R{\frac {z'_{i}}{\pi _{i}}}\right)$

そして、分散は次のように近似できる：^[2]^{: 178, 179}

${\widehat {V({\hat {R}})}}={\frac {1}{{\hat {Z}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\hat {R}}z_{i}}{\pi _{i}}}{\frac {y_{j}-{\hat {R}}z_{j}}{\pi _{j}}}\right)={\frac {1}{{\hat {Z}}^{2}}}\left[{\widehat {V({\hat {Y}})}}+{\hat {R}}{\widehat {V({\hat {Z}})}}-2{\hat {R}}{\hat {C}}({\hat {Y}},{\hat {Z}})\right]$ 。

項は、Yの推定和とZの推定和の間の推定共分散です。これは2つの確率変数の和の共分散であるため、指標変数に依存する多くの共分散の組み合わせが含まれます。選択確率が無相関の場合（つまり、）、この項には、との間の各要素iについてn個の共分散の和が含まれます。これは、この式がyとzの相関が比推定値の分散に与える影響を考慮していることを示しています。 ${\hat {C}}({\hat {Y}},{\hat {Z}})$ $\forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0$ $y'_{i}=I_{i}y_{i}$ $z'_{i}=I_{i}z_{i}$

上記を定義すると次のようになる: ^[2]^{: 182} $z_{i}=1$

${\widehat {V({\hat {R}})}}={\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}{\frac {y_{j}-{\bar {y}}_{w}}{\pi _{j}}}\right).$

選択確率が無相関の場合（すなわち、）、そして各要素の確率が非常に小さいと仮定すると（すなわち、）、上記は次のように簡略化されます。 $\forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0$ $(1-\pi _{i})\approx 1$ ${\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}\right)^{2}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}.$

同様の証明の再現（最後のいくつかの間違いを除く）は、Thomas Lumleyによってcrossvalidatedで提供されました。^[3]

加重平均の分散には、（少なくとも）2つのバージョンがあります。1つは既知の母集団サイズの推定値を使用したバージョン、もう1つは未知の母集団サイズの推定値を使用したバージョンです。一様に優れたアプローチはありませんが、文献では、母集団サイズが既知の場合でも、母集団推定バージョンを使用する方が良いという議論がいくつかあります。^[2]^{: 188}たとえば、すべてのy値が定数である場合、母集団サイズが未知の推定値は正しい結果をもたらしますが、母集団サイズが既知の推定値にはいくらかの変動があります。また、サンプルサイズ自体がランダムである場合（ポアソンサンプリングなど）、母集団平均が未知のバージョンの方が安定していると見なされます。最後に、サンプリングの割合が値と負の相関がある場合（つまり、大きな観測値をサンプリングする機会が少ない場合）、母集団サイズが未知のバージョンはそれをわずかに補正します。

すべての重みが 1 に等しい単純なケースでは、上記の式は平均の分散の通常の式とまったく同じです (ただし、不偏分散ではなく、分散の最大尤度推定値を使用することに注意してください。つまり、(n-1) ではなく n で割ります)。

ブートストラップ検証

Gatzら（1995）は、ブートストラッピング法と比較して、テイラー級数線形化を用いた比平均の分散推定が、平均の標準誤差の2乗の妥当な推定値であることを示した（化学成分の測定の文脈で使用される場合）。^[4]^{: 1186}

{\widehat {\sigma _{{\bar {x}}_{w}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\left[\sum (w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})^{2}-2{\bar {x}}_{w}\sum (w_{i}-{\bar {w}})(w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})+{\bar {x}}_{w}^{2}\sum (w_{i}-{\bar {w}})^{2}\right]

ここで、さらに単純化すると、 ${\bar {w}}={\frac {\sum w_{i}}{n}}$

{\widehat {\sigma _{\bar {x}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\sum w_{i}^{2}(x_{i}-{\bar {x}}_{w})^{2}

Gatzらは、上記の定式化はEndlichら(1988)によって発表されたもので、重み付き平均を重み付き総推定値と母集団サイズの推定値で割ったものとして扱う際に用いられたと述べている^[5]。これはCochran(1977)が発表した定式化に基づいており、比平均の近似値として用いられた。しかし、Endlichらはこの導出を論文では公表していないようである（使用したことは言及しているものの）。また、Cochranの著書では若干異なる定式化が用いられている^[1]^{。155 と}はいえ、これは前節で説明した定式化とほぼ同じである。

複製ベースの推定値

加重平均の分散に対する閉じた解析形式が存在しないため、文献ではジャックナイフ法やブートストラッピング法などの複製法に頼ることが提案されている。^[1]^{: 321}

その他の注意事項

分散のある無相関の観測値の場合、加重標本平均の分散は^[^{引用が必要}^{]である。} $\sigma _{i}^{2}$

\sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}

その平方根は加重平均の標準誤差と呼ぶことができる（一般的な場合）。^[^要出典^] $\sigma _{\bar {x}}$

その結果、すべての観測値が等しい分散を持つ場合、加重標本平均は分散を持つことになる。 $\sigma _{i}^{2}=\sigma _{0}^{2}$

\sigma _{\bar {x}}^{2}=\sigma _{0}^{2}\sum _{i=1}^{n}{w_{i}'^{2}},

ここでです。分散は、1つを除くすべての重みがゼロのときに最大値に達します。分散の最小値は、すべての重みが等しい場合（つまり、重み付けされていない平均の場合）に得られます。この場合、分散は、つまり平均の標準誤差の2乗に縮退します。 ${\textstyle 1/n\leq \sum _{i=1}^{n}{w_{i}'^{2}}\leq 1}$ $\sigma _{0}^{2}$ ${\textstyle \sigma _{\bar {x}}=\sigma _{0}/{\sqrt {n}}}$

正規化されていない重みはいつでも正規化された重みに変換できるため、このセクションのすべての式は、をすべて置き換えることで正規化されていない重みに適応できます。 $w_{i}'={\frac {w_{i}}{\sum _{i=1}^{n}{w_{i}}}}$

参照

注記

^ 技術的には、すべての値がゼロまたは負の数である場合、負の数を使用できます。ただし、重みは絶対値として機能するため、これは何の機能も果たしません。

参考文献

^ abcd Cochran, WG (1977). サンプリングテクニック（第3版）. ナッシュビル, テネシー州: John Wiley & Sons. ISBN 978-0-471-16240-7
^ abcdefghijklmnopq カール＝エリック・サルンダル;ベングト・スウェンソン。ヤン・レットマン (1992)。モデル支援調査サンプリング。スプリンガー。ISBN 978-0-387-97528-3。
^ Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley)、加重平均の（近似）分散を推定する方法、URL（バージョン：2021-06-08）：https://stats.stackexchange.com/q/525770
^ Gatz, Donald F.; Smith, Luther (1995年6月). 「加重平均濃度の標準誤差—I. ブートストラッピングと他の手法の比較」.大気環境. 29 (11): 1185– 1193. Bibcode :1995AtmEn..29.1185G. doi :10.1016/1352-2310(94)00210-C.- PDFリンク
^ Endlich, RM; Eymon, BP; Ferek, RJ; Valdes, AD; Maxwell, C. (1988-12-01). 「米国東部における降水化学測定の統計分析。第1部：季節的・地域的パターンと相関関係」. Journal of Applied Meteorology and Climatology . 27 (12): 1322– 1333. Bibcode :1988JApMe..27.1322E. doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .
^ 「GNU Scientific Library – リファレンスマニュアル: 重み付けサンプル」. Gnu.org . 2017年12月22日閲覧。
^ 「加重標準誤差と有意性検定への影響（WinCross vs. Quantum & SPSS）、アルバート・マダンスキー博士」（PDF） . Analyticalgroup.com . 2017年12月22日閲覧。
^ ab Price, George R. (1972年4月). 「共分散選択数学の拡張」(PDF) . Annals of Human Genetics . 35 (4): 485– 490. doi :10.1111/j.1469-1809.1957.tb01874.x. PMID 5073694. S2CID 37828617.
^ Mark Galassi、Jim Davies、James Theiler、Brian Gough、Gerard Jungman、Michael Booth、Fabrice Rossi. GNU Scientific Library - リファレンスマニュアル、バージョン1.15、2011年。第21.7節重み付けサンプル
^ ジェームズ、フレデリック (2006).実験物理学における統計的手法（第2版）. シンガポール: ワールドサイエンティフィック. p. 324. ISBN 981-270-527-9。
^ GHハーディ、JEリトルウッド、G.ポリア著『不等式』（第2版）、ケンブリッジ大学出版局、ISBN 978-0-521-35880-4、1988年。
^ ジェーン・グロスマン、マイケル・グロスマン、ロバート・カッツ著『重み付き微分積分法の初体系』ISBN 0-9771170-1-4、1980年。

さらに読む

ベヴィントン、フィリップ・R (1969). 『物理科学のためのデータ整理と誤差分析』ニューヨーク：マグロウヒル. OCLC 300283069.
Strutz, T. (2010).データフィッティングと不確実性（重み付き最小二乗法とその応用に関する実践的入門） . Vieweg+Teubner. ISBN 978-3-8348-1022-9。

外部リンク

David Terr. 「加重平均」。MathWorld。
加重平均を計算するツール

[1] 技術的には、すべての値がゼロまたは負の数である場合、負の数を使用できます。ただし、重みは絶対値として機能するため、これは何の機能も果たしません。

[Cochran1977-2] Cochran, WG (1977). サンプリングテクニック（第3版）. ナッシュビル, テネシー州: John Wiley & Sons. ISBN 978-0-471-16240-7

[sarndal1992-3] q カール＝エリック・サルンダル;ベングト・スウェンソン。ヤン・レットマン (1992)。モデル支援調査サンプリング。スプリンガー。ISBN 978-0-387-97528-3。

[4] Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley)、加重平均の（近似）分散を推定する方法、URL（バージョン：2021-06-08）：https://stats.stackexchange.com/q/525770

[5] Gatz, Donald F.; Smith, Luther (1995年6月). 「加重平均濃度の標準誤差—I. ブートストラッピングと他の手法の比較」.大気環境. 29 (11): 1185– 1193. Bibcode :1995AtmEn..29.1185G. doi :10.1016/1352-2310(94)00210-C.- PDFリンク

[6] Endlich, RM; Eymon, BP; Ferek, RJ; Valdes, AD; Maxwell, C. (1988-12-01). 「米国東部における降水化学測定の統計分析。第1部：季節的・地域的パターンと相関関係」. Journal of Applied Meteorology and Climatology . 27 (12): 1322– 1333. Bibcode :1988JApMe..27.1322E. doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .

[7] 「GNU Scientific Library – リファレンスマニュアル: 重み付けサンプル」. Gnu.org . 2017年12月22日閲覧。

[8] 「加重標準誤差と有意性検定への影響（WinCross vs. Quantum & SPSS）、アルバート・マダンスキー博士」（PDF） . Analyticalgroup.com . 2017年12月22日閲覧。

[PRICE-1972-9] Price, George R. (1972年4月). 「共分散選択数学の拡張」(PDF) . Annals of Human Genetics . 35 (4): 485– 490. doi :10.1111/j.1469-1809.1957.tb01874.x. PMID 5073694. S2CID 37828617.

[Galassi-2007-GSL-10] Mark Galassi、Jim Davies、James Theiler、Brian Gough、Gerard Jungman、Michael Booth、Fabrice Rossi. GNU Scientific Library - リファレンスマニュアル、バージョン1.15、2011年。第21.7節重み付けサンプル

[11] ジェームズ、フレデリック (2006).実験物理学における統計的手法（第2版）. シンガポール: ワールドサイエンティフィック. p. 324. ISBN 981-270-527-9。

[12] GHハーディ、JEリトルウッド、G.ポリア著『不等式』（第2版）、ケンブリッジ大学出版局、ISBN 978-0-521-35880-4、1988年。

[13] ジェーン・グロスマン、マイケル・グロスマン、ロバート・カッツ著『重み付き微分積分法の初体系』ISBN 0-9771170-1-4、1980年。

加重算術平均

例

基本的な例

凸結合の例

数学的な定義

分散定義の重み

統計的特性

期待

分散

単純なiidケース

調査サンプルの観点

加重和の分散（パワー-合計の推定値)

加重平均の分散（ $π$ -比率平均の推定値)

ブートストラップ検証

複製ベースの推定値

その他の注意事項

関連概念

加重標本分散

頻度重み

信頼性の重み

加重標本共分散

頻度重み

信頼性の重み

ベクトル値推定値

相関関係を考慮する

相互作用の強度の低下

指数関数的に減少する重み

関数の加重平均

過剰分散または不足分散の修正

参照

注記

参考文献

さらに読む

外部リンク

加重算術平均

例

基本的な例

凸結合の例

数学的な定義

分散定義の重み

統計的特性

期待

分散

単純なiidケース

調査サンプルの観点

加重和の分散（パワー-合計の推定値)

加重平均の分散（π-比率平均の推定値)

ブートストラップ検証

複製ベースの推定値

その他の注意事項

関連概念

加重標本分散

頻度重み

信頼性の重み

加重標本共分散

頻度重み

信頼性の重み

ベクトル値推定値

相関関係を考慮する

相互作用の強度の低下

指数関数的に減少する重み

関数の加重平均

過剰分散または不足分散の修正

参照

注記

参考文献

さらに読む

外部リンク

加重平均の分散（ $π$ -比率平均の推定値)