Statistical principle
統計学 において 、 十分性とは、 標本データセット を用いて計算される 統計 量が、 そのデータセットのパラメトリックモデルと関連して持つ特性です。十分統計量には、データセットが提供するモデルパラメータに関するすべての情報が含まれています。これは、モデルパラメータ に関する情報を含まない 補助統計量 、およびパラメータに関する情報のみを含み補助情報を含まない 完全統計量の概念と密接に関連しています。
関連する概念として 線形十分性がある。これは 十分性 よりも弱い概念だ が、十分な統計量がない場合にも適用できる。ただし、線形推定量に限定される。 [1] コルモゴロフ 構造関数は 個々の有限データを扱い、それに関連する概念はアルゴリズム的十分統計量である。
この概念は1920年に ロナルド・フィッシャー卿 によって提唱されました 。[2] スティーブン・スティグラー は1973年に、十分性の概念は分布形式の仮定に強く依存しているため 記述統計 では好まれなくなっていると指摘しました(下記のピットマン・クープマン・ダルモワの定理を参照)。しかし、理論的研究においては依然として非常に重要な概念です。 [3]
背景 大まかに言えば、未知のパラメータ を条件とする、 独立かつ同一に分布する データの 集合が与えられた場合、十分な統計量とは、 その値がパラメータの推定値(例えば、 最尤推定 値)を計算するために必要なすべての情報を含む関数です 。因数分解定理(下記参照)により、十分な統計量 の場合 、確率密度は と表すことができます。この因数分解から、 の最大尤度推定値は を通じてのみ と 相互作用する ことが容易にわかります 。通常、十分な統計量はデータの単純な関数、例えばすべてのデータポイントの合計です。 X {\displaystyle \mathbf {X} } θ {\displaystyle \theta } T ( X ) {\displaystyle T(\mathbf {X} )} T ( X ) {\displaystyle T(\mathbf {X} )} f X ( x ; θ ) = h ( x ) g ( θ , T ( x ) ) {\displaystyle f_{\mathbf {X} }(x;\theta )=h(x)\,g(\theta ,T(x))} θ {\displaystyle \theta } X {\displaystyle \mathbf {X} } T ( X ) {\displaystyle T(\mathbf {X} )}
より一般的には、「未知のパラメータ」は未知の量の ベクトル を表す場合もあれば、モデルに関する未知または完全には指定されていないすべてのものを表す場合もあります。このような場合、十分な統計量は、 共同十分統計量 と呼ばれる関数の集合である場合があります。通常、関数の数はパラメータの数と同じです。例えば、 平均 と 分散 が未知の ガウス分布 の場合、両方のパラメータの最大尤度推定値を推定できる共同十分統計量は、すべてのデータポイントの合計とすべてのデータポイントの2乗の合計(または、 標本平均 と 標本分散 )という2つの関数で構成されます。
言い換えれば、 データの結合確率分布は、パラメータの十分統計量の値が与えられた場合、パラメータから条件付きで独立である 。 統計 量と基礎パラメータはどちらもベクトルである可能性がある。
数学的な定義 統計量 t = T ( X )が 基礎パラメータ θ に対して十分であるとは、統計量 t = T ( X )が与えられたデータ Xの 条件付き確率分布が パラメータ θ に依存しない場合に限る 。 [4]
あるいは、 θ 上のすべての事前分布に対して、 θ と T(X) 間の 相互情報量が θ と X 間の相互情報量に等しい 場合、統計量 T ( X ) は θ に対して十分である と言うこと もできます 。 [5] 言い換えれば、 データ処理不等式は 等式になります。
I ( θ ; T ( X ) ) = I ( θ ; X ) {\displaystyle I{\bigl (}\theta ;T(X){\bigr )}=I(\theta ;X)}
例 例えば、分散が既知の 正規分布 の平均 μ (未知)を求めるには、標本平均値だけで十分です。標本平均値が分かれば、標本自体からは μ に関する更なる情報を得ることはできません。一方、任意の分布の場合、 中央値 は平均値を求めるのに十分ではありません。標本の中央値が分かっていても、標本自体を知ることで母平均に関する更なる情報が得られます。例えば、中央値を下回る観測値はわずかに小さいだけであるのに対し、中央値を大きく上回る観測値は母平均に関する推論に影響を与える可能性があります。
フィッシャー・ネイマン因数分解定理 フィッシャーの 因数分解定理 あるいは 因数分解基準 は、十分統計量の便利な 特徴付け を提供する。 確率密度関数 が ƒ θ ( x ) である場合、 T が θ に対して十分である ことは、 非負関数 g と h が次式を満たす場合に限ります。
f ( x ; θ ) = h ( x ) g ( θ , T ( x ) ) , {\displaystyle f(x;\theta )=h(x)\,g(\theta ,T(x)),} すなわち、密度 ƒ は、一方の因子 hが θ に依存せず 、もう一方の因子( θに依存する)が T ( x )を通じてのみ x に依存するような積に因数分解できる 。この一般的な証明はHalmosとSavage [6] によって与えられており、この定理はHalmos–Savage因数分解定理と呼ばれることもある。 [7] 以下の証明は特殊なケースを扱っているが、同様の方法で別の一般的な証明を行うこともできる。 [8] 多くの単純なケースでは、確率密度関数は、および 、および によって完全に指定される (例を参照)。 θ {\displaystyle \theta } T ( x ) {\displaystyle T(x)} h ( x ) = 1 {\displaystyle h(x)=1}
F ( t ) が1対1関数であり、 T が 十分統計量である場合、 F ( T ) が十分統計量であることは容易に理解できます 。特に、十分統計量に非ゼロの定数を乗じることで、別の十分統計量を得ることができます。
尤度原理の解釈 この定理の含意は、尤度に基づく推論を用いる場合、十分統計量 T ( X ) の値が同一となる2つのデータセットは、常に θ に関する推論結果が同じになるという点である。因数分解基準によれば、尤度の θ への依存性は T ( X )のみに依存する。どちらの場合もこれが同じであるため、 θ への依存性 も同じとなり、同一の推論結果が導かれる。
証拠 HoggとCraigによる。 [9] は、 ι < θ < δ に対して確率 密度関数 f ( x , θ )を持つ分布からのランダムサンプルを表す 。Y 1 = u 1 ( X 1 , X 2 , ..., X n )を、確率密度関数 g 1 ( y 1 ; θ )である統計量とする 。証明したいのは、 Y 1 = u 1 ( X 1 , X 2 , ..., X n )がθ に対する十分統計量であるための必要十分条件であり 、かつ、ある関数 H に対して、 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}}
∏ i = 1 n f ( x i ; θ ) = g 1 [ u 1 ( x 1 , x 2 , … , x n ) ; θ ] H ( x 1 , x 2 , … , x n ) . {\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).} まず、
∏ i = 1 n f ( x i ; θ ) = g 1 [ u 1 ( x 1 , x 2 , … , x n ) ; θ ] H ( x 1 , x 2 , … , x n ) . {\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).} i = 1, ..., n に対して y i = u i ( x 1 , x 2 , ..., x n )という変換を行い、 その逆関数 x i = w i ( y 1 , y 2 , ... , y n ) と ヤコビ行列 を 求める 。したがって、 J = [ w i / y j ] {\displaystyle J=\left[w_{i}/y_{j}\right]}
∏ i = 1 n f [ w i ( y 1 , y 2 , … , y n ) ; θ ] = | J | g 1 ( y 1 ; θ ) H [ w 1 ( y 1 , y 2 , … , y n ) , … , w n ( y 1 , y 2 , … , y n ) ] . {\displaystyle \prod _{i=1}^{n}f\left[w_{i}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right].} 左側の要素は、 Y 1 = u 1 ( X 1 , ..., X n ) 、... 、 Y n = u n ( X 1 , ..., X n ) の結合確率 密度 関数 g ( y 1 , y 2 , ..., y n ; θ ) です。右側の要素 は の確率密度関数な ので、 は と の 商です 。つまり、が 与えられた の条件付き確率密度関数です 。 g 1 ( y 1 ; θ ) {\displaystyle g_{1}(y_{1};\theta )} Y 1 {\displaystyle Y_{1}} H [ w 1 , … , w n ] | J | {\displaystyle H[w_{1},\dots ,w_{n}]|J|} g ( y 1 , … , y n ; θ ) {\displaystyle g(y_{1},\dots ,y_{n};\theta )} g 1 ( y 1 ; θ ) {\displaystyle g_{1}(y_{1};\theta )} h ( y 2 , … , y n ∣ y 1 ; θ ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )} Y 2 , … , Y n {\displaystyle Y_{2},\dots ,Y_{n}} Y 1 = y 1 {\displaystyle Y_{1}=y_{1}}
しかし 、 であり 、したがって は に依存しないことが示されています 。 は変換に導入されておらず、したがってヤコビ行列 にも導入されていないため、 は に依存しない ことが示され 、 は の十分な統計量となります 。 H ( x 1 , x 2 , … , x n ) {\displaystyle H(x_{1},x_{2},\dots ,x_{n})} H [ w 1 ( y 1 , … , y n ) , … , w n ( y 1 , … , y n ) ) ] {\displaystyle H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]} θ {\displaystyle \theta } θ {\displaystyle \theta } J {\displaystyle J} h ( y 2 , … , y n ∣ y 1 ; θ ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )} θ {\displaystyle \theta } Y 1 {\displaystyle Y_{1}} θ {\displaystyle \theta }
逆は次のように証明されます。
g ( y 1 , … , y n ; θ ) = g 1 ( y 1 ; θ ) h ( y 2 , … , y n ∣ y 1 ) , {\displaystyle g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1}),} ここで は に依存しません。 なぜなら は のみに依存し 、 は によって条件付けられる場合から独立しているからです 。これは仮説により十分統計量となります。ここで、両方の要素を非零ヤコビアン の絶対値で割り 、 の関数 を に 置き換えます 。これは次式を得ます。 h ( y 2 , … , y n ∣ y 1 ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})} θ {\displaystyle \theta } Y 2 . . . Y n {\displaystyle Y_{2}...Y_{n}} X 1 . . . X n {\displaystyle X_{1}...X_{n}} Θ {\displaystyle \Theta } Y 1 {\displaystyle Y_{1}} J {\displaystyle J} y 1 , … , y n {\displaystyle y_{1},\dots ,y_{n}} u 1 ( x 1 , … , x n ) , … , u n ( x 1 , … , x n ) {\displaystyle u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})} x 1 , … , x n {\displaystyle x_{1},\dots ,x_{n}}
g [ u 1 ( x 1 , … , x n ) , … , u n ( x 1 , … , x n ) ; θ ] | J ∗ | = g 1 [ u 1 ( x 1 , … , x n ) ; θ ] h ( u 2 , … , u n ∣ u 1 ) | J ∗ | {\displaystyle {\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J^{*}|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}} ここで、 は の項における値に置き換えられた ヤコビアンである 。左辺は必然的に の結合確率密度関数となる 。 、そして は に依存しない ので、 J ∗ {\displaystyle J^{*}} y 1 , … , y n {\displaystyle y_{1},\dots ,y_{n}} x 1 , … , x n {\displaystyle x_{1},\dots ,x_{n}} f ( x 1 ; θ ) ⋯ f ( x n ; θ ) {\displaystyle f(x_{1};\theta )\cdots f(x_{n};\theta )} X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}} h ( y 2 , … , y n ∣ y 1 ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})} h ( u 2 , … , u n ∣ u 1 ) {\displaystyle h(u_{2},\dots ,u_{n}\mid u_{1})} θ {\displaystyle \theta }
H ( x 1 , … , x n ) = h ( u 2 , … , u n ∣ u 1 ) | J ∗ | {\displaystyle H(x_{1},\dots ,x_{n})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}} は に依存しない関数です 。 θ {\displaystyle \theta }
もう一つの証拠 より単純でわかりやすい証明は次のとおりです。ただし、これは離散的な場合にのみ適用されます。
の結合確率密度を で表すために、略記法を用いる 。 は の決定論的関数であるため 、 で ある限り が成り立ち 、 でなければ 0 となる。したがって、 ( X , T ( X ) ) {\displaystyle (X,T(X))} f θ ( x , t ) {\displaystyle f_{\theta }(x,t)} T {\displaystyle T} X {\displaystyle X} f θ ( x , t ) = f θ ( x ) {\displaystyle f_{\theta }(x,t)=f_{\theta }(x)} t = T ( x ) {\displaystyle t=T(x)}
f θ ( x ) = f θ ( x , t ) = f θ ( x ∣ t ) f θ ( t ) = f ( x ∣ t ) f θ ( t ) {\displaystyle {\begin{aligned}f_{\theta }(x)&=f_{\theta }(x,t)\\[5pt]&=f_{\theta }(x\mid t)f_{\theta }(t)\\[5pt]&=f(x\mid t)f_{\theta }(t)\end{aligned}}} 最後の等式は十分統計量の定義により真となる。したがって、 および となる 。 f θ ( x ) = a ( x ) b θ ( t ) {\displaystyle f_{\theta }(x)=a(x)b_{\theta }(t)} a ( x ) = f X ∣ t ( x ) {\displaystyle a(x)=f_{X\mid t}(x)} b θ ( t ) = f θ ( t ) {\displaystyle b_{\theta }(t)=f_{\theta }(t)}
逆に、 の場合には、 f θ ( x ) = a ( x ) b θ ( t ) {\displaystyle f_{\theta }(x)=a(x)b_{\theta }(t)}
f θ ( t ) = ∑ x : T ( x ) = t f θ ( x , t ) = ∑ x : T ( x ) = t f θ ( x ) = ∑ x : T ( x ) = t a ( x ) b θ ( t ) = ( ∑ x : T ( x ) = t a ( x ) ) b θ ( t ) . {\displaystyle {\begin{aligned}f_{\theta }(t)&=\sum _{x:T(x)=t}f_{\theta }(x,t)\\[5pt]&=\sum _{x:T(x)=t}f_{\theta }(x)\\[5pt]&=\sum _{x:T(x)=t}a(x)b_{\theta }(t)\\[5pt]&=\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t).\end{aligned}}} 最初の等式は 多重変数の pdf の定義 により、2 番目は上記のコメントにより、3 番目は仮説により、4 番目は合計が を超えていないためです 。 t {\displaystyle t}
与えられた の条件付き確率密度を とします 。すると、これを明示的に表す式を導出できます。 f X ∣ t ( x ) {\displaystyle f_{X\mid t}(x)} X {\displaystyle X} T ( X ) {\displaystyle T(X)}
f X ∣ t ( x ) = f θ ( x , t ) f θ ( t ) = f θ ( x ) f θ ( t ) = a ( x ) b θ ( t ) ( ∑ x : T ( x ) = t a ( x ) ) b θ ( t ) = a ( x ) ∑ x : T ( x ) = t a ( x ) . {\displaystyle {\begin{aligned}f_{X\mid t}(x)&={\frac {f_{\theta }(x,t)}{f_{\theta }(t)}}\\[5pt]&={\frac {f_{\theta }(x)}{f_{\theta }(t)}}\\[5pt]&={\frac {a(x)b_{\theta }(t)}{\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t)}}\\[5pt]&={\frac {a(x)}{\sum _{x:T(x)=t}a(x)}}.\end{aligned}}} 最初の等式は条件付き確率密度の定義により、2番目の等式は上記の注釈により、3番目の等式は上で証明された等式により、そして4番目の等式は簡略化により成立する。この式は に依存しない ため、 十分な統計量となる。 [10] θ {\displaystyle \theta } T {\displaystyle T}
最低限の充足 十分統計量は、 他の十分統計量の関数として表せる場合、 最小十分統計量である。言い換えれば、 S ( X ) が 最小十分統計量 となるのは、 [11]
S ( X ) で十分であり、 T ( X )が十分であれば、 S ( X )= f ( T ( X ))となる 関数 f が存在する。 直感的に言えば、最小限の十分統計量は、 パラメータ θに関するすべての可能な情報を 最も効率的に 捕捉します。
最小十分性の有用な特徴付けは、密度 f θ が存在するとき、 S ( X )が 最小十分性を 満たす場合、
f θ ( x ) f θ ( y ) {\displaystyle {\frac {f_{\theta }(x)}{f_{\theta }(y)}}} θ に依存しない : S ( x )= S ( y ) ⟺ {\displaystyle \Longleftrightarrow } これは、上で述べたフィッシャーの因数分解定理の結果として生じます。
最小十分統計量が存在しないケースは、Bahadur (1954) によって示されました。 [12] しかし、軽度の条件下では、最小十分統計量は常に存在します。特にユークリッド空間では、( に関連付けられた)確率変数が すべて離散的であるか、すべて連続的である場合、これらの条件は常に成立します。 P θ {\displaystyle P_{\theta }}
最小十分統計量が存在する場合(通常はそうである)、すべての 完全 十分統計量は必然的に最小十分統計量となる [13] (ただし、この記述は、完全十分統計量が存在する一方で最小十分統計量が存在しないという病的なケースを排除するものではないことに注意)。最小十分統計量が存在しないケースを見つけるのは難しいが、完全十分統計量が存在しないケースを見つけるのはそれほど難しくない。
パラメータ空間が離散的である場合、 の 尤度比の集合は最小十分統計量です 。 { L ( X ∣ θ i ) L ( X ∣ θ 0 ) } {\displaystyle \left\{{\frac {L(X\mid \theta _{i})}{L(X\mid \theta _{0})}}\right\}} i = 1 , . . . , k {\displaystyle i=1,...,k} { θ 0 , . . . , θ k } {\displaystyle \left\{\theta _{0},...,\theta _{k}\right\}}
例
ベルヌーイ分布 X 1 、...、 X n が期待値p を持つ独立した ベルヌーイ分布の 確率変数である 場合 、合計 T ( X ) = X 1 + ... + X n はp に対する十分な統計量です (ここで、「成功」は X i = 1 に対応し、「失敗」は X i = 0 に対応します。したがって、 T は成功の総数です)。
これは結合確率分布を考慮するとわかります。
Pr { X = x } = Pr { X 1 = x 1 , X 2 = x 2 , … , X n = x n } . {\displaystyle \Pr\{X=x\}=\Pr\{X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}\}.} 観測は独立しているので、これは次のように書ける。
p x 1 ( 1 − p ) 1 − x 1 p x 2 ( 1 − p ) 1 − x 2 ⋯ p x n ( 1 − p ) 1 − x n {\displaystyle p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}} そして、 p と1 − p の累乗を集めると、
p ∑ x i ( 1 − p ) n − ∑ x i = p T ( x ) ( 1 − p ) n − T ( x ) {\displaystyle p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}} これは因数分解の基準を満たしており、 h ( x ) = 1 は単なる定数です。
重要な特徴に注意してください。未知のパラメータ pは 、統計 T ( x )=Σxi を 介し てのみデータ x と相互作用します。
具体的な応用として、これは公平なコインと偏ったコイン を区別する手順を示します 。
X 1 、...、 X n が独立しており、 区間 [0、 θ ]上で 均一に分布している 場合、 T ( X ) = max( X 1 、...、 X n ) は θ に対して十分です。つまり、 標本の最大値 は母集団の最大値に対する十分な統計量です。
これを理解するには、 X ( X 1 ,..., X n )の 結合 確率密度関数 を考えてみましょう。観測値は独立しているので、確率密度関数は個々の密度の積として表すことができます。
f θ ( x 1 , … , x n ) = 1 θ 1 { 0 ≤ x 1 ≤ θ } ⋯ 1 θ 1 { 0 ≤ x n ≤ θ } = 1 θ n 1 { 0 ≤ min { x i } } 1 { max { x i } ≤ θ } {\displaystyle {\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\[5pt]&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}} ここで 、1 { ... }は 指示関数 です 。したがって、密度はフィッシャー・ネイマン分解定理によって要求される形をとります。ここで、 h ( x ) = 1 {min{ x i }≥0} となり、式の残りの部分は θ と T ( x ) = max{ x i } のみの関数となります。
実際、 θの 最小分散不偏推定量 (MVUE) は
n + 1 n T ( X ) . {\displaystyle {\frac {n+1}{n}}T(X).} これは、バイアス を補正するためにスケーリングされた標本最大値であり 、 レーマン・シェッフェの定理 によりMVUEとなる。スケーリングされていない標本最大値 T ( X )は、 θ の 最大尤度推定値 である。
が独立しており、 区間 ( および は未知のパラメータ)上で 均一に分布している 場合、 は の 2 次元の十分な統計量です 。 X 1 , . . . , X n {\displaystyle X_{1},...,X_{n}} [ α , β ] {\displaystyle [\alpha ,\beta ]} α {\displaystyle \alpha } β {\displaystyle \beta } T ( X 1 n ) = ( min 1 ≤ i ≤ n X i , max 1 ≤ i ≤ n X i ) {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha \,,\,\beta )}
これを理解するには、 の結合 確率密度関数 を考えてみましょう。観測値は独立しているので、pdfは個々の密度の積として表すことができます。つまり、 X 1 n = ( X 1 , … , X n ) {\displaystyle X_{1}^{n}=(X_{1},\ldots ,X_{n})}
f X 1 n ( x 1 n ) = ∏ i = 1 n ( 1 β − α ) 1 { α ≤ x i ≤ β } = ( 1 β − α ) n 1 { α ≤ x i ≤ β , ∀ i = 1 , … , n } = ( 1 β − α ) n 1 { α ≤ min 1 ≤ i ≤ n X i } 1 { max 1 ≤ i ≤ n X i ≤ β } . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \beta -\alpha }\right)\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta \}}=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta ,\,\forall \,i=1,\ldots ,n\}}\\&=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}} サンプルの結合密度は、フィッシャー・ネイマン因数分解定理によって求められる形をとり、
h ( x 1 n ) = 1 , g ( α , β ) ( x 1 n ) = ( 1 β − α ) n 1 { α ≤ min 1 ≤ i ≤ n X i } 1 { max 1 ≤ i ≤ n X i ≤ β } . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\quad g_{(\alpha ,\beta )}(x_{1}^{n})=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}} はパラメータに依存せず 、 関数を通じて のみ依存する ため h ( x 1 n ) {\displaystyle h(x_{1}^{n})} ( α , β ) {\displaystyle (\alpha ,\beta )} g ( α , β ) ( x 1 n ) {\displaystyle g_{(\alpha \,,\,\beta )}(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( X 1 n ) = ( min 1 ≤ i ≤ n X i , max 1 ≤ i ≤ n X i ) , {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right),}
フィッシャー・ネイマン因数分解定理によれば、 は の十分な統計量である 。 T ( X 1 n ) = ( min 1 ≤ i ≤ n X i , max 1 ≤ i ≤ n X i ) {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha \,,\,\beta )}
ポアソン分布 X 1 、...、 X n が独立しており、 パラメータ λを持つ ポアソン分布 に従う場合 、合計 T ( X ) = X 1 + ... + X n はλ に対する十分な統計量です 。
これを理解するには、結合確率分布を考えてみましょう。
Pr ( X = x ) = P ( X 1 = x 1 , X 2 = x 2 , … , X n = x n ) . {\displaystyle \Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}).} 観測は独立しているので、これは次のように書ける。
e − λ λ x 1 x 1 ! ⋅ e − λ λ x 2 x 2 ! ⋯ e − λ λ x n x n ! {\displaystyle {e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}} これは次のように書ける。
e − n λ λ ( x 1 + x 2 + ⋯ + x n ) ⋅ 1 x 1 ! x 2 ! ⋯ x n ! {\displaystyle e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}} これは因数分解基準が満たされていることを示しています。ここで、 h ( x ) は階乗の積の逆数です。パラメータ λ は、その和 T ( X ) を通じてのみデータと相互作用することに注意してください。
正規分布 が独立で、 期待値 (パラメータ)と既知の有限分散 を持つ正規分布で ある場合 、 X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} θ {\displaystyle \theta } σ 2 , {\displaystyle \sigma ^{2},}
T ( X 1 n ) = x ¯ = 1 n ∑ i = 1 n X i {\displaystyle T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} 十分な統計量である θ . {\displaystyle \theta .}
これを理解するには、 の結合 確率密度関数 を考えてみましょう。観測値は独立しているので、pdfは個々の密度の積として表すことができます。つまり、 X 1 n = ( X 1 , … , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}
f X 1 n ( x 1 n ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − θ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n 2 exp ( − ∑ i = 1 n ( x i − θ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n 2 exp ( − ∑ i = 1 n ( ( x i − x ¯ ) − ( θ − x ¯ ) ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n 2 exp ( − 1 2 σ 2 ( ∑ i = 1 n ( x i − x ¯ ) 2 + ∑ i = 1 n ( θ − x ¯ ) 2 − 2 ∑ i = 1 n ( x i − x ¯ ) ( θ − x ¯ ) ) ) = ( 2 π σ 2 ) − n 2 exp ( − 1 2 σ 2 ( ∑ i = 1 n ( x i − x ¯ ) 2 + n ( θ − x ¯ ) 2 ) ) ∑ i = 1 n ( x i − x ¯ ) ( θ − x ¯ ) = 0 = ( 2 π σ 2 ) − n 2 exp ( − 1 2 σ 2 ∑ i = 1 n ( x i − x ¯ ) 2 ) exp ( − n 2 σ 2 ( θ − x ¯ ) 2 ) {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {\left(\left(x_{i}-{\overline {x}}\right)-\left(\theta -{\overline {x}}\right)\right)^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\sum _{i=1}^{n}(\theta -{\overline {x}})^{2}-2\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})\right)\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+n(\theta -{\overline {x}})^{2}\right)\right)&&\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})=0\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}} サンプルの結合密度は、フィッシャー・ネイマン因数分解定理によって求められる形をとり、
h ( x 1 n ) = ( 2 π σ 2 ) − n 2 exp ( − 1 2 σ 2 ∑ i = 1 n ( x i − x ¯ ) 2 ) g θ ( x 1 n ) = exp ( − n 2 σ 2 ( θ − x ¯ ) 2 ) {\displaystyle {\begin{aligned}h(x_{1}^{n})&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\[6pt]g_{\theta }(x_{1}^{n})&=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}} はパラメータに依存せず 、 関数を通じて のみ依存する ため h ( x 1 n ) {\displaystyle h(x_{1}^{n})} θ {\displaystyle \theta } g θ ( x 1 n ) {\displaystyle g_{\theta }(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}}
T ( X 1 n ) = x ¯ = 1 n ∑ i = 1 n X i , {\displaystyle T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},} フィッシャー・ネイマン因数分解定理によれば、 は の十分な統計量である 。 T ( X 1 n ) {\displaystyle T(X_{1}^{n})} θ {\displaystyle \theta }
が 未知であり、 なので 、上記の尤度は次のように書き直すことができる。 σ 2 {\displaystyle \sigma ^{2}} s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}
f X 1 n ( x 1 n ) = ( 2 π σ 2 ) − n / 2 exp ( − n − 1 2 σ 2 s 2 ) exp ( − n 2 σ 2 ( θ − x ¯ ) 2 ) . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})=(2\pi \sigma ^{2})^{-n/2}\exp \left(-{\frac {n-1}{2\sigma ^{2}}}s^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right).\end{aligned}}} フィッシャー・ネイマン因数分解定理は依然として成り立ち、 が の十分な結合統計量であることを意味します 。 ( x ¯ , s 2 ) {\displaystyle ({\overline {x}},s^{2})} ( θ , σ 2 ) {\displaystyle (\theta ,\sigma ^{2})}
指数分布 が独立しており、 期待値 θ (未知の実数値の正のパラメータ)を 持つ指数分布で ある場合、 は θ の十分な統計量です。 X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}} T ( X 1 n ) = ∑ i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}}
これを理解するには、 の結合 確率密度関数 を考えてみましょう。観測値は独立しているので、pdfは個々の密度の積として表すことができます。つまり、 X 1 n = ( X 1 , … , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}
f X 1 n ( x 1 n ) = ∏ i = 1 n 1 θ e − 1 θ x i = 1 θ n e − 1 θ ∑ i = 1 n x i . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{1 \over \theta }\,e^{{-1 \over \theta }x_{i}}={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}} サンプルの結合密度は、フィッシャー・ネイマン因数分解定理によって求められる形をとり、
h ( x 1 n ) = 1 , g θ ( x 1 n ) = 1 θ n e − 1 θ ∑ i = 1 n x i . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{\theta }(x_{1}^{n})={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}} はパラメータに依存せず 、 関数を通じて のみ依存する ため h ( x 1 n ) {\displaystyle h(x_{1}^{n})} θ {\displaystyle \theta } g θ ( x 1 n ) {\displaystyle g_{\theta }(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( X 1 n ) = ∑ i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}}
フィッシャー・ネイマン因数分解定理によれば、 は の十分な統計量である 。 T ( X 1 n ) = ∑ i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}} θ {\displaystyle \theta }
ガンマ分布 が独立で として分布している 場合 ( およびは ガンマ分布 の未知のパラメータ) 、 は の 2 次元の十分な統計量です 。 X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}} Γ ( α , β ) {\displaystyle \Gamma (\alpha \,,\,\beta )} α {\displaystyle \alpha } β {\displaystyle \beta } T ( X 1 n ) = ( ∏ i = 1 n X i , ∑ i = 1 n X i ) {\displaystyle T(X_{1}^{n})=\left(\prod _{i=1}^{n}{X_{i}},\sum _{i=1}^{n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha ,\beta )}
これを理解するには、 の結合 確率密度関数 を考えてみましょう。観測値は独立しているので、pdfは個々の密度の積として表すことができます。つまり、 X 1 n = ( X 1 , … , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}
f X 1 n ( x 1 n ) = ∏ i = 1 n ( 1 Γ ( α ) β α ) x i α − 1 e ( − 1 / β ) x i = ( 1 Γ ( α ) β α ) n ( ∏ i = 1 n x i ) α − 1 e − 1 β ∑ i = 1 n x i . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)x_{i}^{\alpha -1}e^{(-1/\beta )x_{i}}\\[5pt]&=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}} サンプルの結合密度は、フィッシャー・ネイマン因数分解定理によって求められる形をとり、
h ( x 1 n ) = 1 , g ( α , β ) ( x 1 n ) = ( 1 Γ ( α ) β α ) n ( ∏ i = 1 n x i ) α − 1 e − 1 β ∑ i = 1 n x i . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{(\alpha \,,\,\beta )}(x_{1}^{n})=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}} はパラメータに依存せず 、 関数を通じて のみ依存する ため h ( x 1 n ) {\displaystyle h(x_{1}^{n})} ( α , β ) {\displaystyle (\alpha \,,\,\beta )} g ( α , β ) ( x 1 n ) {\displaystyle g_{(\alpha \,,\,\beta )}(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( x 1 n ) = ( ∏ i = 1 n x i , ∑ i = 1 n x i ) , {\displaystyle T(x_{1}^{n})=\left(\prod _{i=1}^{n}x_{i},\sum _{i=1}^{n}x_{i}\right),}
フィッシャー・ネイマン因数分解定理によれ ば、 T ( X 1 n ) = ( ∏ i = 1 n X i , ∑ i = 1 n X i ) {\displaystyle T(X_{1}^{n})=\left(\prod _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}\right)} ( α , β ) . {\displaystyle (\alpha \,,\,\beta ).}
ラオ・ブラックウェルの定理 十分性は ラオ・ブラックウェル定理 に有用に応用される 。この定理は、 g ( X ) が θ の何らかの推定値である場合 、通常、 十分な統計量 T ( X ) を与えられた g ( X )の 条件付き期待値は、 θのより良い推定値( 分散が 低いという意味で )であり、決して劣ることはない、と述べている。場合によっては、非常に粗い推定値 g ( X )を非常に簡単に構築し 、その条件付き期待値を評価することで、様々な意味で最適な推定値を得ることができる。
指数族 ピットマン・クープマン・ダルモワの定理 によれば、 推定されるパラメータによって定義域が変化しない確率分布族の中で、 指数分布族 においてのみ、標本数が増加しても次元が有界のままである十分な統計量が存在する。直感的には、これは実数直線上の非指数分布族では、データの情報を完全に捉えるために ノンパラメトリック統計量 が必要であることを意味している。
もっと簡単に言えば、が 独立した同一分布の 実数 ランダム変数であり 、その分布が によってパラメータ化されたある確率分布族に属することがわかっており、 特定の技術的な正則性条件を満たしているとすると、その族が 指数 族であるためには、サンプルサイズ n が増加してもスカラー成分の数が 増加しない 十分な 値統計量が存在する必要がある 。 [14] X n , n = 1 , 2 , 3 , … {\displaystyle X_{n},n=1,2,3,\dots } θ {\displaystyle \theta } R m {\displaystyle \mathbb {R} ^{m}} T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dots ,X_{n})} m {\displaystyle m}
この定理は、有限次元の実ベクトル値の十分な統計量の存在が、 実数直線 上の分布の族の可能な形式を厳しく制限することを示しています。
パラメータやランダム変数が実数値ではなくなると、状況はさらに複雑になります。 [15]
その他の充足性の種類
ベイズ十分性 統計量が十分であるという条件をベイズ流の文脈で定式化すると、データセット全体を用いた場合と統計量のみを用いた場合の事後分布が考慮される。したがって、ほぼすべての x に対して、
Pr ( θ ∣ X = x ) = Pr ( θ ∣ T ( X ) = t ( x ) ) . {\displaystyle \Pr(\theta \mid X=x)=\Pr(\theta \mid T(X)=t(x)).} より一般的には、パラメトリックモデルを仮定せずに、統計量T が 十分に予測可能 であると言えるのは 、
Pr ( X ′ = x ′ ∣ X = x ) = Pr ( X ′ = x ′ ∣ T ( X ) = t ( x ) ) . {\displaystyle \Pr(X'=x'\mid X=x)=\Pr(X'=x'\mid T(X)=t(x)).} この「ベイズ的十分性」は上記の定式化の結果であることが判明しているが [16] 、無限次元の場合、それらは直接的には同等ではない。 [17] ベイズ的文脈における十分性については、様々な理論的結果が得られている。 [18]
線形充足性 「線形十分性」と呼ばれる概念は、ベイズ理論の文脈 [19] 、そしてより一般的には [20] で定式化することができる。まず、ベクトル Yの X に基づく 最良の線形予測子を と定義する 。すると、線形統計量 T ( x )が線形十分性を持つのは [21] 、 E ^ [ Y ∣ X ] {\displaystyle {\hat {E}}[Y\mid X]}
E ^ [ θ ∣ X ] = E ^ [ θ ∣ T ( X ) ] . {\displaystyle {\hat {E}}[\theta \mid X]={\hat {E}}[\theta \mid T(X)].}
参照
注記 ^ Dodge, Y. (2003) — 線形充足性の項目 ^ フィッシャー, RA (1922). 「理論統計の数学的基礎について」. Philosophical Transactions of the Royal Society A . 222 ( 594– 604): 309– 368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02. JSTOR 91208. ^ スティグラー、スティーブン (1973年12月)「確率統計史研究 第32章 ラプラス、フィッシャー、そして十分性の概念の発見」 Biometrika 60 ( 3): 439– 445. doi :10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872. ^ Casella, George; Berger, Roger L. (2002). 統計的推論, 第2版 . Duxbury Press. ^ Cover, Thomas M. (2006). 『情報理論の要素 』 Joy A. Thomas (第2版). ホーボーケン, ニュージャージー: Wiley-Interscience. p. 36. ISBN 0-471-24195-4 . OCLC 59879802. ^ Halmos, PR; Savage, LJ (1949). 「ラドン・ニコディムの定理の十分統計理論への応用」 . 数理統計年報 . 20 (2): 225– 241. doi : 10.1214/aoms/1177730032 . ISSN 0003-4851. ^ 「因数分解定理 - 数学百科事典」. encyclopediaofmath.org . 2022年9月7日 閲覧 。 ^ Taraldsen, G. (2022). 「十分性のための因数分解定理」. プレプリント . doi :10.13140/RG.2.2.15068.87687. ^ ホッグ, ロバート V.; クレイグ, アレン T. (1995). 数理統計学入門 . プレンティス・ホール. ISBN 978-0-02-355722-4 。 ^ 「フィッシャー・ネイマン因数分解定理」. Connexions のウェブページ (cnx.org) ^ Dodge (2003) — 最小限の十分統計量のエントリ ^ レーマンとカセラ(1998年)、 点推定理論 、第2版、シュプリンガー、p 37 ^ Lehmann and Casella (1998)、 「点推定理論」 第2版、Springer、42ページ ^ Tikochinsky, Y.; Tishby, NZ; Levine, RD (1984-11-01). 「最大エントロピー推論への代替アプローチ」 . Physical Review A. 30 ( 5): 2638– 2644. Bibcode :1984PhRvA..30.2638T. doi :10.1103/physreva.30.2638. ISSN 0556-2791. ^ アンダーセン、アーリング・ベルンハルト(1970年9月) 「 離散 標本空間における十分性と指数族」 アメリカ 統計学会誌 、 65 (331): 1248-1255。doi :10.1080/01621459.1970.10481160。ISSN 0162-1459 。 ^ Bernardo, JM ; Smith, AFM (1994). 「セクション5.1.4」. ベイズ理論 . Wiley. ISBN 0-471-92416-4 。 ^ Blackwell, D. ; Ramamoorthi, RV (1982). 「ベイズ統計だが古典的には十分ではない統計量」 Annals of Statistics . 10 (3): 1025– 1026. doi : 10.1214/aos/1176345895 . MR 0663456. Zbl 0485.62004. ^ Nogales, AG; Oyola, JA; Perez, P. (2000). 「ベイズ的観点から見た条件付き独立性と十分性と不変性の関係について」 . Statistics & Probability Letters . 46 (1): 75– 84. doi :10.1016/S0167-7152(99)00089-9. MR 1731351. Zbl 0964.62003. ^ Goldstein, M.; O'Hagan, A. (1996). 「ベイズ線形十分性と専門家事後評価システム」. 英国王立統計学会誌 . シリーズB. 58 (2): 301– 316. doi :10.1111/j.2517-6161.1996.tb02083.x. JSTOR 2345978. ^ Godambe, VP (1966). 「有限母集団からのサンプリングへの新しいアプローチ II 分布に依存しない十分性」. 英国王立統計学会誌 . シリーズB. 28 (2): 320– 328. doi :10.1111/j.2517-6161.1966.tb00645.x. JSTOR 2984375. ^ Witting, T. (1987). 「信頼性理論における線形マルコフ性」. ASTIN Bulletin . 17 (1): 71– 84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .
参考文献