ベータ 確率密度関数
累積分布関数
表記 ベータ( α , β ) パラメータ α > 0形状 (実数 ) β > 0形状 (実数 )サポート × ∈ [ 0 , 1 ] {\displaystyle x\in [0,1]\!} または× ∈ ( 0 , 1 ) {\displaystyle x\in (0,1)\!} PDF × α − 1 ( 1 − × ) β − 1 B ( α , β ) {\displaystyle {\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\!} ここで、はガンマ関数 ですB ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β ) {\displaystyle \mathrm {B} (\alpha,\beta)={\frac {\Gamma (\alpha)\Gamma (\beta)}{\Gamma (\alpha +\beta)}}} Γ {\displaystyle \Gamma } CDF 私 × ( α , β ) {\displaystyle I_{x}(\alpha,\beta)\!}
(正規化不完全ベータ関数 )平均 E [ X ] = α α + β {\displaystyle \operatorname {E} [X]={\frac {\alpha }{\alpha +\beta }}\!} E [ ln X ] = ψ ( α ) − ψ ( α + β ) {\displaystyle \operatorname {E} [\ln X]=\psi (\alpha)-\psi (\alpha +\beta)\!} E [ X ln X ] = α α + β [ ψ ( α + 1 ) − ψ ( α + β + 1 ) ] {\displaystyle \operatorname {E} [X\,\ln X]={\frac {\alpha }{\alpha +\beta }}\,\left[\psi (\alpha +1)-\psi (\alpha +\beta +1)\right]\!} (幾何平均の 項を参照)
二重ガンマ関数 は どこにありますかψ {\displaystyle \psi} 中央値 私 1 2 [ − 1 ] ( α , β ) (一般に) ≈ α − 1 3 α + β − 2 3 のために α , β > 1 {\displaystyle {\begin{matrix}I_{\frac {1}{2}}^{[-1]}(\alpha ,\beta ){\text{ (in general) }}\\[0.5em]\approx {\frac {\alpha -{\tfrac {1}{3}}}{\alpha +\beta -{\tfrac {2}{3}}}}{\text{ for }}\alpha ,\beta >1\end{matrix}}} 最頻値 α − 1 α + β − 2 {\displaystyle {\frac {\alpha -1}{\alpha +\beta -2}}\!} α 、β > 1 の場合
α = β = 1 の領域内の任意の値
α <1またはβ <1 の場合、モードは存在しない。密度は発散する。
α ≤ 1 の場合は0 、 β ≤ 1の場合は1分散 var [ X ] = α β ( α + β ) 2 ( α + β + 1 ) {\displaystyle \operatorname {var} [X]={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}\!} var [ ln X ] = ψ 1 ( α ) − ψ 1 ( α + β ) {\displaystyle \operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )\!} (トリガンマ関数 および幾何分散の セクションを参照)歪度 2 ( β − α ) α + β + 1 ( α + β + 2 ) α β {\displaystyle {\frac {2\,(\beta -\alpha ){\sqrt {\alpha +\beta +1}}}{(\alpha +\beta +2){\sqrt {\alpha \beta }}}}} 過剰尖度 6 [ ( α − β ) 2 ( α + β + 1 ) − α β ( α + β + 2 ) ] α β ( α + β + 2 ) ( α + β + 3 ) {\displaystyle {\frac {6[(\alpha -\beta )^{2}(\alpha +\beta +1)-\alpha \beta (\alpha +\beta +2)]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}} エントロピー ln B ( α , β ) − ( α − 1 ) ψ ( α ) − ( β − 1 ) ψ ( β ) + ( α + β − 2 ) ψ ( α + β ) {\displaystyle {\begin{matrix}\ln \mathrm {B} (\alpha ,\beta )-(\alpha -1)\psi (\alpha )-(\beta -1)\psi (\beta )\\[0.5em]{}+(\alpha +\beta -2)\psi (\alpha +\beta )\end{matrix}}} MGF 1 + ∑ k = 1 ∞ ( ∏ r = 0 k − 1 α + r α + β + r ) t k k ! {\displaystyle 1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {t^{k}}{k!}}} CF 1 F 1 ( α ; α + β ; i t ) {\displaystyle {}_{1}F_{1}(\alpha ;\alpha +\beta ;i\,t)\!} (合流型超幾何関数を 参照)フィッシャー情報量 [ var [ ln X ] cov [ ln X , ln ( 1 − X ) ] cov [ ln X , ln ( 1 − X ) ] var [ ln ( 1 − X ) ] ] {\displaystyle {\begin{bmatrix}\operatorname {var} [\ln X]&\operatorname {cov} [\ln X,\ln(1-X)]\\\operatorname {cov} [\ln X,\ln(1-X)]&\operatorname {var} [\ln(1-X)]\end{bmatrix}}} フィッシャー情報量行列 のセクションを参照モーメント法 α = ( E [ X ] ( 1 − E [ X ] ) V [ X ] − 1 ) E [ X ] {\displaystyle \alpha =\left({\frac {E[X](1-E[X])}{V[X]}}-1\right)E[X]} β = ( E [ X ] ( 1 − E [ X ] ) V [ X ] − 1 ) ( 1 − E [ X ] ) {\displaystyle \beta =\left({\frac {E[X](1-E[X])}{V[X]}}-1\right)(1-E[X])}
確率論 と統計学 において、ベータ分布は、 アルファ ( α ) とベータ ( β )で表される2 つの正のパラメータ によって区間 [0, 1] または (0, 1) で定義される連続確率分布 の族です。これらのパラメータは、それぞれ変数の指数と 1 の補数として表示され、分布の形状 を制御します。
ベータ分布は、様々な分野において、有限長の区間に限定された確率変数 の挙動をモデル化するために応用されてきました。ベータ分布は、パーセンテージや割合のランダムな挙動に適したモデルです。
ベイズ推論 では、ベータ分布はベルヌーイ 分布、二項分布 、負の二項分布 、および幾何 分布の共役事前確率分布 です。
ここで論じるベータ分布の定式化は、第一種ベータ分布 とも呼ばれ、第二種ベータ分布は ベータプライム分布 の別名です。多変数への一般化はディリクレ分布 と呼ばれます。
定義
確率密度関数 さまざまなパラメータ値に対するベータ分布のアニメーション。 ベータ分布の確率密度関数 (PDF)、または、形状 パラメータ、は、次のように変数とその反射の べき関数 です。 0 ≤ x ≤ 1 {\displaystyle 0\leq x\leq 1} 0 < x < 1 {\displaystyle 0<x<1} α {\displaystyle \alpha } β > 0 {\displaystyle \beta >0} x {\displaystyle x} ( 1 − x ) {\displaystyle (1-x)}
f ( x ; α , β ) = c o n s t a n t ⋅ x α − 1 ( 1 − x ) β − 1 = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 {\displaystyle {\begin{aligned}f(x;\alpha ,\beta )&=\mathrm {constant} \cdot x^{\alpha -1}(1-x)^{\beta -1}\\[3pt]&={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\displaystyle \int _{0}^{1}u^{\alpha -1}(1-u)^{\beta -1}\,du}}\\[6pt]&={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}\,x^{\alpha -1}(1-x)^{\beta -1}\\[6pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}x^{\alpha -1}(1-x)^{\beta -1}\end{aligned}}}
ここではガンマ関数 です。ベータ関数 は 、全体の確率が1になることを保証する正規化定数 です。上記の式では、 は確率変数 の実現 値(実際に発生した観測値)です。 Γ ( z ) {\displaystyle \Gamma (z)} B {\displaystyle \mathrm {B} } x {\displaystyle x} X {\displaystyle X}
NL Johnson やS. Kotz など[ 1 ] の著者は、ベータ分布の形状パラメータとして、記号と(および の代わりに)を使用しています。これは、形状パラメータ と の両方が0に近づくと、極限でベータ分布がベルヌーイ分布 に近づくため、ベルヌーイ分布のパラメータに伝統的に使用される記号を連想させます。 p {\displaystyle p} q {\displaystyle q} α {\displaystyle \alpha } β {\displaystyle \beta } α {\displaystyle \alpha } β {\displaystyle \beta }
以下では、パラメータを持つベータ分布に従う確率変数を次のように表記する: [ 2 ] [ 3 ] X {\displaystyle X} α {\displaystyle \alpha } β {\displaystyle \beta }
X ∼ Beta ( α , β ) {\displaystyle X\sim \operatorname {Beta} (\alpha ,\beta )}
統計文献で使用されているベータ分布に従う確率変数の他の表記法は[ 4 ] と[ 5 ] である。X ∼ B e ( α , β ) {\displaystyle X\sim {\mathcal {B}}e(\alpha ,\beta )} X ∼ β α , β {\displaystyle X\sim \beta _{\alpha ,\beta }}
累積分布関数 対称ベータ分布の累積分布関数(CDF)対x 、 α = β 歪んだベータ分布のCDF対x および β = 5α 累積分布関数 は
F ( x ; α , β ) = B ( x ; α , β ) B ( α , β ) = I x ( α , β ) {\displaystyle F(x;\alpha ,\beta )={\frac {\mathrm {B} {}(x;\alpha ,\beta )}{\mathrm {B} {}(\alpha ,\beta )}}=I_{x}(\alpha ,\beta )}
ここでは不完全ベータ関数 であり、は正規化された不完全ベータ関数 です。 B ( x ; α , β ) {\displaystyle \mathrm {B} (x;\alpha ,\beta )} I x ( α , β ) {\displaystyle I_{x}(\alpha ,\beta )}
正の整数α とβに対して、ベータ分布の累積分布関数は 二項分布 の累積分布関数で表される。[ 6 ]
F beta ( x ; α , β ) = F binomial ( β − 1 ; α + β − 1 , 1 − x ) . {\displaystyle F_{\text{beta}}(x;\alpha ,\beta )=F_{\text{binomial}}(\beta -1;\alpha +\beta -1,1-x).}
代替パラメータ化
2つのパラメータ
平均と標本サイズ ベータ分布は、その平均μ (0 < μ < 1) と 2 つの形状パラメータの合計ν = α + β > 0 ( [ 3 ] p. 83) で再パラメータ化することもできます。ベイズの定理を二項尤度関数と事前確率に適用した結果の事後ベータ分布の形状パラメータを αPosterior と βPosterior で表すと、両方の形状パラメータの加算がサンプルサイズ = ν = α ·Posterior + β ·Posterior であると解釈できるのは、ハルデン事前確率 Beta(0,0) の場合のみです。具体的には、ベイズ (一様) 事前確率 Beta(1,1) の場合、正しい解釈はサンプルサイズ = α ·Posterior + β Posterior − 2、つまり ν = (サンプルサイズ) + 2 となります。サンプル サイズが 2より はるかに大きい場合、これら 2 つの事前確率の差は無視できるようになります。 (詳細については、ベイズ推論のセクションを参照してください。) ν = α + β はベータ分布の「サンプル サイズ」と呼ばれますが、厳密に言えば、ベイズの定理で Haldane Beta(0,0) 事前分布を使用する場合にのみ、二項尤度関数の「サンプル サイズ」となることを覚えておく必要があります。
このパラメータ化は、ベイズパラメータ推定において有用である。例えば、複数の個人にテストを実施する場合を考える。各個人のスコア(0 ≤ θ ≤ 1)が母集団レベルのベータ分布から得られると仮定すると、重要な統計量はこの母集団レベルの分布の平均となる。平均パラメータとサンプルサイズパラメータは、形状パラメータα およびβ と[ 3 ]の関係にある。
α = μν 、β = (1 − μ ) ν
このパラメータ化 では、平均値に対しては情報価値のない事前 確率を、正の実数に対してはサンプル サイズが独立しており、事前データや信念によって正当化される場合は漠然とした事前確率 (指数 分布やガンマ分布 など) を置くことができます。
モードと集中 凹型 ベータ分布は、モードと「濃度」によってパラメータ化できます。モード、および濃度、は、通常の形状パラメータを次のように定義するために使用できます。[ 7 ] モード、を明確に定義するには、、または同等の が必要です。代わりに濃度を と定義すると、条件は に簡略化され、におけるベータ密度は次のように表すことができます。 ここで、 は十分な統計量 、および を直接スケーリングします。また、 の極限では、分布が平坦になることにも注意してください。 α , β > 1 {\displaystyle \alpha ,\beta >1} ω = α − 1 α + β − 2 {\displaystyle \omega ={\frac {\alpha -1}{\alpha +\beta -2}}} κ = α + β {\displaystyle \kappa =\alpha +\beta } α = ω ( κ − 2 ) + 1 β = ( 1 − ω ) ( κ − 2 ) + 1 {\displaystyle {\begin{aligned}\alpha &=\omega (\kappa -2)+1\\\beta &=(1-\omega )(\kappa -2)+1\end{aligned}}} 0 < ω < 1 {\displaystyle 0<\omega <1} α , β > 1 {\displaystyle \alpha ,\beta >1} κ > 2 {\displaystyle \kappa >2} c = α + β − 2 {\displaystyle c=\alpha +\beta -2} c > 0 {\displaystyle c>0} α = 1 + c ω {\displaystyle \alpha =1+c\omega } β = 1 + c ( 1 − ω ) {\displaystyle \beta =1+c(1-\omega )} f ( x ; ω , c ) = x c ω ( 1 − x ) c ( 1 − ω ) B ( 1 + c ω , 1 + c ( 1 − ω ) ) {\displaystyle f(x;\omega ,c)={\frac {x^{c\omega }(1-x)^{c(1-\omega )}}{\mathrm {B} {\bigl (}1+c\omega ,1+c(1-\omega ){\bigr )}}}} c {\displaystyle c} log ( x ) {\displaystyle \log(x)} log ( 1 − x ) {\displaystyle \log(1-x)} c → 0 {\displaystyle c\to 0}
平均と分散 上記のセクションでベータ分布の平均と分散の方程式として示した連立方程式を、元のパラメータα とβを用いて解くと、 α とβのパラメータを平均( μ )と分散(var)を 用いて表すことができます
ν = α + β = μ ( 1 − μ ) v a r − 1 , where ν = ( α + β ) > 0 , therefore: var < μ ( 1 − μ ) α = μ ν = μ ( μ ( 1 − μ ) var − 1 ) , if var < μ ( 1 − μ ) β = ( 1 − μ ) ν = ( 1 − μ ) ( μ ( 1 − μ ) var − 1 ) , if var < μ ( 1 − μ ) . {\displaystyle {\begin{aligned}\nu &=\alpha +\beta ={\frac {\mu (1-\mu )}{\mathrm {var} }}-1,{\text{ where }}\nu =(\alpha +\beta )>0,{\text{ therefore: }}{\text{var}}<\mu (1-\mu )\\\alpha &=\mu \nu =\mu \left({\frac {\mu (1-\mu )}{\text{var}}}-1\right),{\text{ if }}{\text{var}}<\mu (1-\mu )\\\beta &=(1-\mu )\nu =(1-\mu )\left({\frac {\mu (1-\mu )}{\text{var}}}-1\right),{\text{ if }}{\text{var}}<\mu (1-\mu ).\end{aligned}}}
ベータ分布のこのパラメータ化は、元のパラメータ α とβ に基づくものよりも直感的な理解につながる可能性があります。例えば、モード、歪度、過剰尖度、微分エントロピーを平均と分散で表すと、次のようになります。
4つのパラメータ 2つの形状パラメータα とβ を持つベータ分布は、範囲[0,1]または(0,1)でサポートされます。分布の位置とスケールを変更するには、分布の最小値aと最大値c(c > a)を表す2つのパラメータを追加し、 無 次元 変数x を新しい 変数y ( サポート[ a , c ]または ( a , c ))とパラメータa およびc に置き換える線形変換によって変更し ます
y = x ( c − a ) + a , therefore x = y − a c − a . {\displaystyle y=x(c-a)+a,{\text{ therefore }}x={\frac {y-a}{c-a}}.}
4 パラメータのベータ分布の確率密度関数は 、2 パラメータの分布に等しく、範囲 ( c − a ) でスケーリングされます (密度曲線の下の合計面積が確率 1 に等しくなります)。また、"y" 変数は次のようにシフトされ、スケーリングされます。 f ( y ; α , β , a , c ) = f ( x ; α , β ) c − a = ( y − a c − a ) α − 1 ( c − y c − a ) β − 1 ( c − a ) B ( α , β ) = ( y − a ) α − 1 ( c − y ) β − 1 ( c − a ) α + β − 1 B ( α , β ) . {\displaystyle {\begin{aligned}f(y;\alpha ,\beta ,a,c)={\frac {f(x;\alpha ,\beta )}{c-a}}&={\frac {\left({\frac {y-a}{c-a}}\right)^{\alpha -1}\left({\frac {c-y}{c-a}}\right)^{\beta -1}}{(c-a)B(\alpha ,\beta )}}\\[1ex]&={\frac {(y-a)^{\alpha -1}(c-y)^{\beta -1}}{(c-a)^{\alpha +\beta -1}B(\alpha ,\beta )}}.\end{aligned}}}
ランダム変数Yが 4 つのパラメータ α 、β 、a 、c を持つベータ分布に従うことは次のように表されます。
Y ∼ Beta ( α , β , a , c ) . {\displaystyle Y\sim \operatorname {Beta} (\alpha ,\beta ,a,c).}
中心位置のいくつかの尺度は、次のように((c − a )によって)スケーリングされ、(a によって)シフトされます。
μ Y = μ X ( c − a ) + a = α α + β ( c − a ) + a = α c + β a α + β {\displaystyle {\begin{aligned}\mu _{Y}&=\mu _{X}(c-a)+a\\[1ex]&={\frac {\alpha }{\alpha +\beta }}\left(c-a\right)+a={\frac {\alpha c+\beta a}{\alpha +\beta }}\end{aligned}}}
mode ( Y ) = mode ( X ) ( c − a ) + a = α − 1 α + β − 2 ( c − a ) + a = ( α − 1 ) c + ( β − 1 ) a α + β − 2 , if α , β > 1 {\displaystyle {\begin{aligned}{\text{mode}}(Y)&={\text{mode}}(X)(c-a)+a\\[1ex]&={\frac {\alpha -1}{\alpha +\beta -2}}\left(c-a\right)+a\\[1ex]&={\frac {(\alpha -1)c+(\beta -1)a}{\alpha +\beta -2}}\ ,&{\text{ if }}\alpha ,\,\beta >1\end{aligned}}}
median ( Y ) = median ( X ) ( c − a ) + a = I 1 2 [ − 1 ] ( α , β ) ( c − a ) + a {\displaystyle {\begin{aligned}{\text{median}}(Y)&={\text{median}}(X)(c-a)+a\\[1ex]&=I_{\frac {1}{2}}^{[-1]}(\alpha ,\beta )\left(c-a\right)+a\end{aligned}}}
注意: 幾何平均と調和平均は、平均値、中央値、最頻値のように線形変換では変換できません。
Y の形状パラメータは平均と分散で次のように表される。
α = ( a − μ Y ) ( a c − a μ Y − c μ Y + μ Y 2 + σ Y 2 ) σ Y 2 ( c − a ) β = − ( c − μ Y ) ( a c − a μ Y − c μ Y + μ Y 2 + σ Y 2 ) σ Y 2 ( c − a ) {\displaystyle {\begin{aligned}\alpha &={\frac {\left(a-\mu _{Y}\right)\left(a\,c-a\,\mu _{Y}-c\,\mu _{Y}+\mu _{Y}^{2}+\sigma _{Y}^{2}\right)}{\sigma _{Y}^{2}(c-a)}}\\\beta &=-{\frac {\left(c-\mu _{Y}\right)\left(a\,c-a\,\mu _{Y}-c\,\mu _{Y}+\mu _{Y}^{2}+\sigma _{Y}^{2}\right)}{\sigma _{Y}^{2}(c-a)}}\end{aligned}}}
統計的分散尺度は、範囲( c − a )によって、平均偏差については線形に、分散については非線形に スケーリングされます(すでに平均を中心としているのでシフトする必要はありません) 。
(mean deviation around mean) ( Y ) = ( (mean deviation around mean) ( X ) ) ( c − a ) = 2 α α β β B ( α , β ) ( α + β ) α + β + 1 ( c − a ) {\displaystyle {\begin{aligned}&{\text{(mean deviation around mean)}}(Y)\\[1ex]&=({\text{(mean deviation around mean)}}(X))(c-a)\\&={\frac {2\alpha ^{\alpha }\beta ^{\beta }}{\mathrm {B} (\alpha ,\beta )(\alpha +\beta )^{\alpha +\beta +1}}}(c-a)\end{aligned}}} var ( Y ) = var ( X ) ( c − a ) 2 = α β ( c − a ) 2 ( α + β ) 2 ( α + β + 1 ) . {\displaystyle {\text{var}}(Y)={\text{var}}(X)(c-a)^{2}={\frac {\alpha \beta (c-a)^{2}}{(\alpha +\beta )^{2}(\alpha +\beta +1)}}.}
歪度 と過剰尖度は 無次元量(平均を中心とし標準偏差で正規化された モーメント )であるため、パラメータa とcとは独立しており、したがって上記の X に関する式(サポート[0,1]または(0,1))と等しくなります。
skewness ( Y ) = skewness ( X ) = 2 ( β − α ) α + β + 1 ( α + β + 2 ) α β . {\displaystyle {\text{skewness}}(Y)={\text{skewness}}(X)={\frac {2(\beta -\alpha ){\sqrt {\alpha +\beta +1}}}{(\alpha +\beta +2){\sqrt {\alpha \beta }}}}.}
kurtosis excess ( Y ) = kurtosis excess ( X ) = 6 [ ( α − β ) 2 ( α + β + 1 ) − α β ( α + β + 2 ) ] α β ( α + β + 2 ) ( α + β + 3 ) {\displaystyle {\text{kurtosis excess}}(Y)={\text{kurtosis excess}}(X)={\frac {6\left[(\alpha -\beta )^{2}(\alpha +\beta +1)-\alpha \beta (\alpha +\beta +2)\right]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}}
性質
中心傾向の尺度
最頻値 α , β > 1のベータ分布に従う確率変数 X の最頻値は 、分布の最も可能性の高い値(PDF のピークに対応)であり、次の式で表されます。[ 1 ]
α − 1 α + β − 2 . {\displaystyle {\frac {\alpha -1}{\alpha +\beta -2}}.}
両方のパラメータが1未満(α 、β <1)の場合、これは反モード、つまり確率密度曲線の最低点です。[ 8 ]
α = β とすると、モードの式は 1/2 に簡略化され、α = β > 1 の場合にモード(α 、β < 1 の場合は反モード)が分布の中心にあることが示されます。これらのケースでは対称です。α とβ の任意の値に対するモードケースの完全なリストについては、この記事の「形状」 セクションを参照してください。 これらのケースの多くでは、密度関数の最大値は、一方または両方の端で発生します。 場合によっては、端で発生する密度関数の(最大)値は有限です。 たとえば、α = 2、β = 1 (またはα = 1、β = 2)の場合、密度関数は、両端で有限である直角三角形の分布になります。 他の多くの場合、一方の端に 特異点 があり、密度関数の値が無限大に近づきます。例えば、 α = β = 1/2の場合、ベータ分布は簡略化されて逆正弦分布 となる。数学者の間では、これらのケースのいくつか、および端(x = 0、x = 1)を モード と呼べるかどうかについて議論がある。[ 9 ] [ 2 ]
1 ≤ α ≤ 5 および 1 ≤ β ≤ 5のベータ分布の最頻値
0 ≤ α ≤ 5および0 ≤ β ≤ 5におけるベータ分布の中央値ベータ分布の(平均値-中央値)とアルファおよびベータ(0~2) ベータ分布の中央値は、正規化された不完全ベータ関数が 成り立つ唯一の実数です。任意のα とβ の値に対して、ベータ分布の中央値 を表す一般的な閉形式表現は 存在しません。 パラメータα とβの特定の値に対する 閉形式表現は 以下のとおりです。 x = I 1 / 2 [ − 1 ] ( α , β ) {\displaystyle x=I_{1/2}^{[-1]}(\alpha ,\beta )} I x ( α , β ) = 1 2 {\displaystyle I_{x}(\alpha ,\beta )={\tfrac {1}{2}}}
対称的なケースでは、 α = β 、中央値 = 1/2 です。 α = 1かつβ > 0の場合、中央値(この場合はべき関数分布 の鏡像 となる)= 1 − 2 − 1 / β {\displaystyle =1-2^{-1/\beta }} α > 0 かつβ = 1の場合、中央値 = (この場合はべき関数分布[ 9 ] )2 − 1 / α {\displaystyle 2^{-1/\alpha }} α = 3、β = 2の場合、中央値 = 0.6142724318676105...となり、 4次方程式 1 − 8 x 3 + 6 x 4 = 0の実数解は[0,1]にあります。α = 2、β = 3の場合、中央値 = 0.38572756813238945... = 1−median(Beta(3, 2))以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づく場合の制限です。
lim β → 0 median = lim α → ∞ median = 1 , lim α → 0 median = lim β → ∞ median = 0. {\displaystyle {\begin{aligned}\lim _{\beta \to 0}{\text{median}}=\lim _{\alpha \to \infty }{\text{median}}=1,\\\lim _{\alpha \to 0}{\text{median}}=\lim _{\beta \to \infty }{\text{median}}=0.\end{aligned}}}
αとβが1以上の場合のベータ分布の中央値の妥当な近似値は、次の式で与えられる[ 10 ]。
median ≈ α − 1 3 α + β − 2 3 for α , β ≥ 1. {\displaystyle {\text{median}}\approx {\frac {\alpha -{\tfrac {1}{3}}}{\alpha +\beta -{\tfrac {2}{3}}}}{\text{ for }}\alpha ,\beta \geq 1.}
α , β ≥ 1の場合、この近似値の相対誤差 (絶対誤差 を中央値で割ったもの)は4%未満であり、α ≥ 2 およびβ ≥ 2 のいずれの場合も1%未満です。平均値と最頻値の差で割った 絶対誤差も同様に小さい値です。
平均 0 ≤ α ≤ 5 および0 ≤ β ≤ 5 におけるベータ分布の平均2つのパラメータα とβ を持つベータ分布の確率変数 X の期待値 (平均)(μ )は、これらのパラメータの比 β / α のみの関数である:[ 1 ]
μ = E [ X ] = ∫ 0 1 x f ( x ; α , β ) d x = ∫ 0 1 x x α − 1 ( 1 − x ) β − 1 B ( α , β ) d x = α α + β = 1 1 + β α {\displaystyle {\begin{aligned}\mu =\operatorname {E} [X]&=\int _{0}^{1}xf(x;\alpha ,\beta )\,dx\\&=\int _{0}^{1}x\,{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\,dx\\&={\frac {\alpha }{\alpha +\beta }}\\&={\frac {1}{1+{\frac {\beta }{\alpha }}}}\end{aligned}}}
上記の式においてα = β とするとμ = 1/2 となり、α = β の場合には平均が分布の中心に位置する、つまり対称であることがわかります。また、上記の式から以下の極限が得られます。
lim β α → 0 μ = 1 lim β α → ∞ μ = 0 {\displaystyle {\begin{aligned}\lim _{{\frac {\beta }{\alpha }}\to 0}\mu =1\\\lim _{{\frac {\beta }{\alpha }}\to \infty }\mu =0\end{aligned}}}
したがって、β / α → 0、またはα / β → ∞の場合、平均は右端x = 1 に位置します。これらの限界比では、ベータ分布は、右端 x = 1 に確率1でディラックのデルタ関数のスパイクを持つ 1 点 退化分布となり、それ以外の場所では確率0となります。右端 x = 1 には100%の確率(絶対確実性)が集中します。
同様に、β / α → ∞、またはα / β → 0の場合、平均は左端のx = 0に位置します。ベータ分布は、左端のx = 0に確率1でディラックのデルタ関数の スパイクを持つ1点退化分布となり、それ以外の場所では確率は0となります。左端の x = 0 には100%の確率(絶対確実性)が集中しています。以下は、一方のパラメータが有限(非ゼロ)で、もう一方のパラメータがこれらの限界に近づく場合の限界です。
lim β → 0 μ = lim α → ∞ μ = 1 lim α → 0 μ = lim β → ∞ μ = 0 {\displaystyle {\begin{aligned}\lim _{\beta \to 0}\mu =\lim _{\alpha \to \infty }\mu =1\\\lim _{\alpha \to 0}\mu =\lim _{\beta \to \infty }\mu =0\end{aligned}}}
典型的な単峰性分布(最頻値が中心に位置し、最頻値の両側に変曲点があり、裾が長い分布)(Beta( α , β )がα , β >2 )の場合、標本平均値(位置の推定値として)は標本中央値ほど堅牢で はないことが知られていますが、均一または「U字型」の双峰性分布(Beta( α , β )がα , β≤1 )の場合、最頻値が分布の両端に位置する場合、その逆になります。MostellerとTukeyが述べているように([ 11 ] p.207 )、2つの極端な観測値の平均にはすべての標本情報が使用されます。これは、裾の短い分布では、極端な観測値により多くの重みが与えられるべきであることを示しています。対照的に、分布の端にモードを持つ「U 字型」の双峰性分布(Beta( α , β )がα , β ≤ 1 )の中央値は、サンプル中央値によって極端なサンプル観測が考慮されなくなるため、堅牢ではないということになります。この実際の応用は、ランダム ウォーク などで発生します。ランダム ウォークで最後に原点を訪れた時間の確率は、逆正弦分布 Beta(1/2, 1/2) として分布するためです。[ 5 ] [ 12 ] ランダム ウォークの実現 値の平均は、中央値(この場合は不適切なサンプル測定推定値)よりもはるかに堅牢な推定値です。
幾何平均 ベータ分布の(平均 − 幾何平均)とα およびβ の関係(0から2)。幾何平均におけるα とβの非対称性を示す ベータ分布の幾何平均 紫 = G ( x )、黄 = G (1 − x )、小さい方の値はα とβ ベータ分布の幾何平均。紫 = G ( x )、黄色 = G (1 − x )、前列にα とβ の大きい値 確率変数 X を持つ分布の幾何平均 G X の対数はln( X )の算術平均、またはそれと同等の期待値である。
ln G X = E [ ln X ] {\displaystyle \ln G_{X}=\operatorname {E} [\ln X]}
ベータ分布の場合、期待値の積分は次のようになります。
E [ ln X ] = ∫ 0 1 ln x f ( x ; α , β ) d x = ∫ 0 1 ln x x α − 1 ( 1 − x ) β − 1 B ( α , β ) d x = 1 B ( α , β ) ∫ 0 1 ∂ x α − 1 ( 1 − x ) β − 1 ∂ α d x = 1 B ( α , β ) ∂ ∂ α ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x = 1 B ( α , β ) ∂ B ( α , β ) ∂ α = ∂ ln B ( α , β ) ∂ α = ∂ ln Γ ( α ) ∂ α − ∂ ln Γ ( α + β ) ∂ α = ψ ( α ) − ψ ( α + β ) {\displaystyle {\begin{aligned}\operatorname {E} [\ln X]&=\int _{0}^{1}\ln x\,f(x;\alpha ,\beta )\,dx\\[4pt]&=\int _{0}^{1}\ln x\,{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}\,\int _{0}^{1}{\frac {\partial x^{\alpha -1}(1-x)^{\beta -1}}{\partial \alpha }}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}{\frac {\partial }{\partial \alpha }}\int _{0}^{1}x^{\alpha -1}(1-x)^{\beta -1}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}{\frac {\partial \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}\\[4pt]&={\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}\\[4pt]&={\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \alpha }}\\[4pt]&=\psi (\alpha )-\psi (\alpha +\beta )\end{aligned}}}
ここでψ はディガンマ関数 です。
したがって、形状パラメータα とβ を持つベータ分布の幾何平均は、次のようにα とβ の二重ガンマ関数の指数になります。
G X = e E [ ln X ] = e ψ ( α ) − ψ ( α + β ) {\displaystyle G_{X}=e^{\operatorname {E} [\ln X]}=e^{\psi (\alpha )-\psi (\alpha +\beta )}}
形状パラメータが等しいベータ分布(α = β) の場合、歪度 = 0、最頻値 = 平均値 = 中央値 = 1/2 となるが、幾何平均は1/2未満(0 < G X < 1/2) となる。これは、対数変換によってX の値がゼロに近づくにつれて ln( X ) が負の無限大に大きく近づくのに対し、X → 1の場合には ln( X ) がゼロに向かって平坦化することから、 X の値がゼロに近づくにつれて強く重み付けされるためである。
直線α = β に沿って、次の制限が適用されます。
lim α = β → 0 G X = 0 lim α = β → ∞ G X = 1 2 {\displaystyle {\begin{aligned}&\lim _{\alpha =\beta \to 0}G_{X}=0\\&\lim _{\alpha =\beta \to \infty }G_{X}={\tfrac {1}{2}}\end{aligned}}}
以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。
lim β → 0 G X = lim α → ∞ G X = 1 lim α → 0 G X = lim β → ∞ G X = 0 {\displaystyle {\begin{aligned}\lim _{\beta \to 0}G_{X}=\lim _{\alpha \to \infty }G_{X}=1\\\lim _{\alpha \to 0}G_{X}=\lim _{\beta \to \infty }G_{X}=0\end{aligned}}}
添付のグラフは、形状パラメータα とβ が 0から2までの平均と幾何平均の差を示しています。αと βが無限大に近づくにつれて両者の差は0に近づき、 α とβ の値が0に近づくにつれて差は大きくなりますが、形状パラメータα とβ に関して幾何平均が明らかに非対称であることが分かります。β とα の大きさを入れ替えた場合よりも、αの値が小さい場合の方が 幾何 平均と平均の差は大きくなります 。
NLJohnson とS.Kotz [ 1 ] は、二ガンマ関数ψ ( α )≈ln( α −1/2)の対数近似を提案しており、 これは幾何平均の次の近似値をもたらす。
G X ≈ α − 1 2 α + β − 1 2 if α , β > 1. {\displaystyle G_{X}\approx {\frac {\alpha \,-{\frac {1}{2}}}{\alpha +\beta -{\frac {1}{2}}}}{\text{ if }}\alpha ,\beta >1.}
この近似における相対誤差 の数値は次のとおりです。 [ ( α = β = 1): 9.39% ]; [ ( α = β = 2): 1.29% ]; [ ( α = 2、β = 3): 1.51% ]; [ ( α = 3、β = 2): 0.44% ]; [ ( α = β = 3): 0.51% ]; [ ( α = β = 4): 0.26% ]; [ ( α = 3、β = 4): 0.55% ]; [ ( α = 4、β = 3): 0.24% ]。
同様に、幾何平均が1/2になるために必要な形状パラメータの値を計算することができます。パラメータβ の値が与えられた場合、幾何平均が1/2になるために必要なもう1つのパラメータ α の値はいくらでしょうか?答えは、(β > 1の場合)、必要なα の値はβ → ∞ のにつれてβ + 1/2 に近づくということです。たとえば、これらのカップルはすべて同じ 1/2 の幾何平均を持ちます: [ β = 1, α = 1.4427 ]、[ β = 2, α = 2.46958 ]、[ β = 3, α = 3.47943 ]、[ β = 4, α = 4.48449 ]、[ β = 5, α = 5.48756 ]、[ β = 10、 α = 10.4938 ]、[ β = 100、 α = 100.499 ]。
幾何平均の基本的な性質は、他の平均では誤りであることが証明できるが、
G ( X i Y i ) = G ( X i ) G ( Y i ) {\displaystyle G{\left({\frac {X_{i}}{Y_{i}}}\right)}={\frac {G(X_{i})}{G(Y_{i})}}}
このため、正規化された 結果、つまり基準値に対する比率として提示された結果を平均化する場合、幾何平均が唯一の正しい平均となります。 [ 13 ] これは、ベータ分布がパーセンテージのランダムな挙動に適したモデルであり、特に割合の統計的モデリングに適しているためです。幾何平均は最尤推定において中心的な役割を果たします。「パラメータ推定、最尤」のセクションを参照してください。実際には、最尤推定を行う際には、ランダム変数 X に基づく幾何平均 G X の 他に、もう1つの幾何平均が自然に現れます。それは、線形変換(1 − X ) に基づく幾何平均で、 X の鏡像であり、G (1− X ) と表記されます。
G 1 − X = e E [ ln ( 1 − X ) ] = e ψ ( β ) − ψ ( α + β ) {\displaystyle G_{1-X}=e^{\operatorname {E} [\ln(1-X)]}=e^{\psi (\beta )-\psi (\alpha +\beta )}}
直線α = β に沿って、次の制限が適用されます。
lim α = β → 0 G 1 − X = 0 lim α = β → ∞ G 1 − X = 1 2 {\displaystyle {\begin{aligned}&\lim _{\alpha =\beta \to 0}G_{1-X}=0\\&\lim _{\alpha =\beta \to \infty }G_{1-X}={\tfrac {1}{2}}\end{aligned}}}
以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。
lim β → 0 G ( 1 − X ) = lim α → ∞ G ( 1 − X ) = 0 lim α → 0 G ( 1 − X ) = lim β → ∞ G ( 1 − X ) = 1 {\displaystyle {\begin{aligned}\lim _{\beta \to 0}G_{(1-X)}=\lim _{\alpha \to \infty }G_{(1-X)}=0\\\lim _{\alpha \to 0}G_{(1-X)}=\lim _{\beta \to \infty }G_{(1-X)}=1\end{aligned}}}
おおよその値は次のとおりです。
G ( 1 − X ) ≈ β − 1 2 α + β − 1 2 if α , β > 1. {\displaystyle G_{(1-X)}\approx {\frac {\beta -{\frac {1}{2}}}{\alpha +\beta -{\frac {1}{2}}}}{\text{ if }}\alpha ,\beta >1.}
G X と G 1− X は どちらも非対称ですが、両方の形状パラメータが等しい場合(α = β ) 、幾何平均は等しくなります:G X = G (1− X ) 。この等式は、両方の幾何平均の間に見られる以下の対称性から導き出されます。
G X ( B ( α , β ) ) = G 1 − X ( B ( β , α ) ) . {\displaystyle G_{X}(\mathrm {B} (\alpha ,\beta ))=G_{1-X}(\mathrm {B} (\beta ,\alpha )).}
調和平均 0 < α < 5および0 < β < 5におけるベータ分布の調和平均 ベータ分布の調和平均とα およびβ の関係(0~2) ベータ分布の調和平均 紫 = H ( X )、黄色 = H (1 − X )、前列のα とβ が小さい値 ベータ分布の調和平均:紫 = H ( X )、黄色 = H (1 − X )、α とβ の値が前にある 確率変数 X を持つ分布の調和平均 (H X )の逆数は、 1/ X の算術平均、すなわちその期待値である。したがって、形状パラメータα とβ を持つベータ分布の調和平均 (H X )は次のようになる。
H X = 1 E [ 1 X ] = 1 ∫ 0 1 f ( x ; α , β ) x d x = 1 ∫ 0 1 x α − 1 ( 1 − x ) β − 1 x B ( α , β ) d x = α − 1 α + β − 1 if α > 1 and β > 0 {\displaystyle {\begin{aligned}H_{X}&={\frac {1}{\operatorname {E} \left[{\frac {1}{X}}\right]}}\\&={\frac {1}{\int _{0}^{1}{\frac {f(x;\alpha ,\beta )}{x}}\,dx}}\\&={\frac {1}{\int _{0}^{1}{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{x\mathrm {B} (\alpha ,\beta )}}\,dx}}\\&={\frac {\alpha -1}{\alpha +\beta -1}}{\text{ if }}\alpha >1{\text{ and }}\beta >0\\\end{aligned}}}
α < 1のベータ分布の調和平均 (H X )は定義 されて いません。これは、定義式が形状パラメータα が 1 未満の 場合に [0, 1] で制限されないためです。
上記の式で α = β とすると、
H X = α − 1 2 α − 1 , {\displaystyle H_{X}={\frac {\alpha -1}{2\alpha -1}},}
α = β の場合、調和平均は 0 ( α = β = 1) から 1/2 ( α = β → ∞) の範囲にあることがわかります。
以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。
lim α → 0 H X is undefined lim α → 1 H X = lim β → ∞ H X = 0 lim β → 0 H X = lim α → ∞ H X = 1 {\displaystyle {\begin{aligned}&\lim _{\alpha \to 0}H_{X}{\text{ is undefined}}\\&\lim _{\alpha \to 1}H_{X}=\lim _{\beta \to \infty }H_{X}=0\\&\lim _{\beta \to 0}H_{X}=\lim _{\alpha \to \infty }H_{X}=1\end{aligned}}}
4パラメータの場合の最尤推定では、幾何平均に加えて調和平均が重要な役割を果たします。実際、4パラメータの場合の最尤推定では、確率変数X に基づく調和平均H X に加えて、もう1つの調和平均が自然に現れます。それは、 X の鏡像である線形変換 (1 − X ) に基づく調和平均で、 H 1 − X と表されます。
H 1 − X = 1 E [ 1 1 − X ] = β − 1 α + β − 1 if β > 1 , and α > 0. {\displaystyle H_{1-X}={\frac {1}{\operatorname {E} \left[{\frac {1}{1-X}}\right]}}={\frac {\beta -1}{\alpha +\beta -1}}{\text{ if }}\beta >1,{\text{ and }}\alpha >0.}
β < 1のベータ分布の調和平均(H(1−X))は定義 され て い ませ ん。これは、その定義式が、形状パラメータβが 1未満の場合に[0, 1]で有界ではないためです。
上記の式で α = β とすると、
H ( 1 − X ) = β − 1 2 β − 1 , {\displaystyle H_{(1-X)}={\frac {\beta -1}{2\beta -1}},}
α = β の場合、調和平均は 0 ( α = β = 1) から 1/2 ( α = β → ∞) の範囲にあることがわかります。
以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。
lim β → 0 H 1 − X is undefined lim β → 1 H 1 − X = lim α → ∞ H 1 − X = 0 lim α → 0 H 1 − X = lim β → ∞ H 1 − X = 1 {\displaystyle {\begin{aligned}&\lim _{\beta \to 0}H_{1-X}{\text{ is undefined}}\\&\lim _{\beta \to 1}H_{1-X}=\lim _{\alpha \to \infty }H_{1-X}=0\\&\lim _{\alpha \to 0}H_{1-X}=\lim _{\beta \to \infty }H_{1-X}=1\end{aligned}}}
H X と H 1− X は どちらも非対称ですが、両方の形状パラメータが等しい場合(α = β ) 、調和平均は等しくなります:H X = H 1− X 。この等式は、両方の調和平均の間に見られる以下の対称性から導き出されます。
H X ( B ( α , β ) ) = H 1 − X ( B ( β , α ) ) if α , β > 1. {\displaystyle H_{X}(\mathrm {B} (\alpha ,\beta ))=H_{1-X}(\mathrm {B} (\beta ,\alpha )){\text{ if }}\alpha ,\beta >1.}
統計的分散の尺度
分散 パラメータα とβを持つベータ分布の 確率変数 X の分散(平均を中心とした2次モーメント)は 、次の式で表される。[ 1 ] [ 14 ]
var ( X ) = E [ ( X − μ ) 2 ] = α β ( α + β ) 2 ( α + β + 1 ) {\displaystyle \operatorname {var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]={\frac {\alpha \beta }{\left(\alpha +\beta \right)^{2}\left(\alpha +\beta +1\right)}}}
上記の式で α = β とすると、
var ( X ) = 1 4 ( 2 β + 1 ) , {\displaystyle \operatorname {var} (X)={\frac {1}{4(2\beta +1)}},}
α = β の場合、分散はα = β が増加するにつれて単調に減少することを示しています。この式でα = β = 0 と設定すると、最大分散 var( X ) = 1/4 [ 1 ] が求められますが、これは極限に近づいたα = β = 0 の場合にのみ発生します。
ベータ分布は、平均μ (0 < μ < 1) と標本サイズν = α + β (ν > 0 ) でパラメータ化することもできます( 平均と標本サイズの サブセクションを参照)。
α = μ ν , where ν = ( α + β ) > 0 , β = ( 1 − μ ) ν , where ν = ( α + β ) > 0. {\displaystyle {\begin{aligned}\alpha &=\mu \nu ,&{\text{ where }}\nu =(\alpha +\beta )>0,\\\beta &=(1-\mu )\nu ,&{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}}
このパラメータ化を使用すると、平均 μ とサンプルサイズν に関して分散を次のように表すことができます。
var ( X ) = μ ( 1 − μ ) 1 + ν {\displaystyle \operatorname {var} (X)={\frac {\mu (1-\mu )}{1+\nu }}}
ν = α + β > 0 であるため、 var( X ) < μ (1 − μ ) になります。
対称分布の場合、平均は分布の中央、μ = 1/2 にあるため、次のようになります。
var ( X ) = 1 4 ( 1 + ν ) if μ = 1 2 {\displaystyle \operatorname {var} (X)={\frac {1}{4(1+\nu )}}{\text{ if }}\mu ={\tfrac {1}{2}}}
また、上記の式から、次の限界値(指定された変数のみが限界値に近づく)が得られます。
lim β → 0 var ( X ) = lim α → 0 var ( X ) = lim β → ∞ var ( X ) = lim α → ∞ var ( X ) = 0 lim ν → ∞ var ( X ) = lim μ → 0 var ( X ) = lim μ → 1 var ( X ) = 0 lim ν → 0 var ( X ) = μ ( 1 − μ ) {\displaystyle {\begin{aligned}&\lim _{\beta \to 0}\operatorname {var} (X)=\lim _{\alpha \to 0}\operatorname {var} (X)=\lim _{\beta \to \infty }\operatorname {var} (X)=\lim _{\alpha \to \infty }\operatorname {var} (X)=0\\&\lim _{\nu \to \infty }\operatorname {var} (X)=\lim _{\mu \to 0}\operatorname {var} (X)=\lim _{\mu \to 1}\operatorname {var} (X)=0\\&\lim _{\nu \to 0}\operatorname {var} (X)=\mu (1-\mu )\end{aligned}}}
幾何分散と共分散 対数幾何分散とα およびβ 対数幾何分散とα およびβ ランダム変数X を持つ分布の幾何分散 の対数 ln(var GX ) は、 X の幾何平均ln( G X ) を中心としたX の対数の2次モーメントです。
ln var G X = E [ ( ln X − ln G X ) 2 ] = E [ ( ln X − E [ ln X ] ) 2 ] = E [ ( ln X ) 2 ] − ( E [ ln X ] ) 2 = var [ ln X ] {\displaystyle {\begin{aligned}\ln \operatorname {var} _{GX}&=\operatorname {E} \left[\left(\ln X-\ln G_{X}\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln X-\operatorname {E} \left[\ln X\right]\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln X\right)^{2}\right]-\left(\operatorname {E} [\ln X]\right)^{2}\\&=\operatorname {var} [\ln X]\end{aligned}}}
したがって、幾何分散は次のようになります。
var G X = e var [ ln X ] {\displaystyle \operatorname {var} _{GX}=e^{\operatorname {var} [\ln X]}}
フィッシャー情報行列と対数尤度 関数 の曲率には、反映された 変数1 − X の幾何分散の対数と、 X と1 − X の間の幾何共分散の対数が次のように表されます。
ln v a r G ( 1 - X ) = E [ ( ln ( 1 − X ) − ln G 1 − X ) 2 ] = E [ ( ln ( 1 − X ) − E [ ln ( 1 − X ) ] ) 2 ] = E [ ( ln ( 1 − X ) ) 2 ] − ( E [ ln ( 1 − X ) ] ) 2 = var [ ln ( 1 − X ) ] v a r G ( 1 - X ) = e var [ ln ( 1 − X ) ] ln c o v G X , 1 - X = E [ ( ln X − ln G X ) ( ln ( 1 − X ) − ln G 1 − X ) ] = E [ ( ln X − E [ ln X ] ) ( ln ( 1 − X ) − E [ ln ( 1 − X ) ] ) ] = E [ ln X ln ( 1 − X ) ] − E [ ln X ] E [ ln ( 1 − X ) ] = cov [ ln X , ln ( 1 − X ) ] cov G X , ( 1 − X ) = e cov [ ln X , ln ( 1 − X ) ] {\displaystyle {\begin{aligned}\ln \operatorname {var_{G(1-X)}} &=\operatorname {E} \left[\left(\ln(1-X)-\ln G_{1-X}\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln(1-X)-\operatorname {E} [\ln(1-X)]\right)^{2}\right]\\&=\operatorname {E} \left[(\ln(1-X))^{2}\right]-\left(\operatorname {E} [\ln(1-X)]\right)^{2}\\&=\operatorname {var} [\ln(1-X)]\\&\\\operatorname {var_{G(1-X)}} &=e^{\operatorname {var} [\ln(1-X)]}\\&\\\ln \operatorname {cov_{G{X,1-X}}} &=\operatorname {E} [(\ln X-\ln G_{X})(\ln(1-X)-\ln G_{1-X})]\\&=\operatorname {E} [(\ln X-\operatorname {E} [\ln X])(\ln(1-X)-\operatorname {E} [\ln(1-X)])]\\&=\operatorname {E} \left[\ln X\ln(1-X)\right]-\operatorname {E} [\ln X]\operatorname {E} [\ln(1-X)]\\&=\operatorname {cov} [\ln X,\ln(1-X)]\\&\\\operatorname {cov} _{G{X,(1-X)}}&=e^{\operatorname {cov} [\ln X,\ln(1-X)]}\end{aligned}}}
ベータ分布の場合、高次の対数モーメントは、ベータ分布を2つのガンマ分布の比として表現し、積分微分することで導出できます。これらは高次のポリガンマ関数で表すことができます。「対数変換された確率変数のモーメント 」のセクションを参照してください。対数変数の分散とln X およびln(1− X ) の 共分散は、以下のとおりです。
var [ ln X ] = ψ 1 ( α ) − ψ 1 ( α + β ) {\displaystyle \operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )} var [ ln ( 1 − X ) ] = ψ 1 ( β ) − ψ 1 ( α + β ) {\displaystyle \operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )} cov [ ln X , ln ( 1 − X ) ] = − ψ 1 ( α + β ) {\displaystyle \operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )}
ここで、三ガンマ関数 (ψ 1 ( α )と表記)は、ポリガンマ関数 の2番目であり、二ガンマ関数 の導関数として定義されます。
ψ 1 ( α ) = d 2 ln Γ ( α ) d α 2 = d ψ ( α ) d α . {\displaystyle \psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{d\alpha ^{2}}}={\frac {d\psi (\alpha )}{d\alpha }}.}
したがって、
ln var G X = var [ ln X ] = ψ 1 ( α ) − ψ 1 ( α + β ) {\displaystyle \ln \operatorname {var} _{GX}=\operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )} ln var G ( 1 − X ) = var [ ln ( 1 − X ) ] = ψ 1 ( β ) − ψ 1 ( α + β ) {\displaystyle \ln \operatorname {var} _{G(1-X)}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )} ln cov G X , 1 − X = cov [ ln X , ln ( 1 − X ) ] = − ψ 1 ( α + β ) {\displaystyle \ln \operatorname {cov} _{GX,1-X}=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )}
添付のグラフは、形状パラメータα およびβ に対する対数幾何分散および対数幾何共分散を示しています。グラフは、形状パラメータα およびβが 2より大きい場合、対数幾何分散および対数幾何共分散が0に近くなることを示しています。また、形状パラメータαおよびβが 1未満の場合は、対数幾何分散の値が急激に増加します。対数幾何分散は、形状パラメータのすべての値に対して正の値です。対数幾何共分散は、形状パラメータのすべての値に対して負の値であり、 α およびβが 1未満の 場合 は大きな負の値になります。
以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。
lim α → 0 ln var G X = lim β → 0 ln var G ( 1 − X ) = ∞ lim β → 0 ln var G X = lim α → ∞ ln var G X = lim α → 0 ln var G ( 1 − X ) = lim β → ∞ ln var G ( 1 − X ) = 0 lim α → ∞ ln cov G X , ( 1 − X ) = lim β → ∞ ln cov G X , ( 1 − X ) = 0 lim β → ∞ ln var G X = ψ 1 ( α ) lim α → ∞ ln var G ( 1 − X ) = ψ 1 ( β ) lim α → 0 ln cov G X , ( 1 − X ) = − ψ 1 ( β ) lim β → 0 ln cov G X , ( 1 − X ) = − ψ 1 ( α ) {\displaystyle {\begin{aligned}&\lim _{\alpha \to 0}\ln \operatorname {var} _{GX}=\lim _{\beta \to 0}\ln \operatorname {var} _{G(1-X)}=\infty \\&\lim _{\beta \to 0}\ln \operatorname {var} _{GX}=\lim _{\alpha \to \infty }\ln \operatorname {var} _{GX}=\lim _{\alpha \to 0}\ln \operatorname {var} _{G(1-X)}=\lim _{\beta \to \infty }\ln \operatorname {var} _{G(1-X)}=0\\&\lim _{\alpha \to \infty }\ln \operatorname {cov} _{GX,(1-X)}=\lim _{\beta \to \infty }\ln \operatorname {cov} _{GX,(1-X)}=0\\&\lim _{\beta \to \infty }\ln \operatorname {var} _{GX}=\psi _{1}(\alpha )\\&\lim _{\alpha \to \infty }\ln \operatorname {var} _{G(1-X)}=\psi _{1}(\beta )\\&\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)}=-\psi _{1}(\beta )\\&\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)}=-\psi _{1}(\alpha )\end{aligned}}}
2 つのパラメータが変化する制限:
lim α → ∞ ( lim β → ∞ ln var G X ) = lim β → ∞ ( lim α → ∞ ln var G ( 1 − X ) ) = lim α → ∞ ( lim β → 0 ln cov G X , ( 1 − X ) ) = lim β → ∞ ( lim α → 0 ln cov G X , ( 1 − X ) ) = 0 lim α → ∞ ( lim β → 0 ln var G X ) = lim β → ∞ ( lim α → 0 ln var G ( 1 − X ) ) = ∞ lim α → 0 ( lim β → 0 ln cov G X , ( 1 − X ) ) = lim β → 0 ( lim α → 0 ln cov G X , ( 1 − X ) ) = − ∞ {\displaystyle {\begin{aligned}&\lim _{\alpha \to \infty }(\lim _{\beta \to \infty }\ln \operatorname {var} _{GX})=\lim _{\beta \to \infty }(\lim _{\alpha \to \infty }\ln \operatorname {var} _{G(1-X)})=\lim _{\alpha \to \infty }(\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)})=\lim _{\beta \to \infty }(\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)})=0\\&\lim _{\alpha \to \infty }(\lim _{\beta \to 0}\ln \operatorname {var} _{GX})=\lim _{\beta \to \infty }(\lim _{\alpha \to 0}\ln \operatorname {var} _{G(1-X)})=\infty \\&\lim _{\alpha \to 0}(\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)})=\lim _{\beta \to 0}(\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)})=-\infty \end{aligned}}}
ln(var GX ) と ln(var G (1 − X ) ) はどちらも非対称ですが、形状パラメータが等しい場合、つまりα = β の場合、ln(var GX ) = ln(var G (1− X ) ) が成り立ちます。この等式は、両方の対数幾何分散の間に示される次の対称性から導かれます。
ln var G X ( B ( α , β ) ) = ln var G ( 1 − X ) ( B ( β , α ) ) . {\displaystyle \ln \operatorname {var} _{GX}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {var} _{G(1-X)}(\mathrm {B} (\beta ,\alpha )).}
対数幾何共分散は対称です。
ln cov G X , ( 1 − X ) ( B ( α , β ) ) = ln cov G X , ( 1 − X ) ( B ( β , α ) ) {\displaystyle \ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\beta ,\alpha ))}
平均値の周りの平均絶対偏差 αとβが0から5の範囲にあるベータ分布の絶対偏差と標準偏差の比 平均0 ≤ μ ≤ 1、サンプルサイズ0 < ν ≤ 10のベータ分布の平均絶対偏差と標準偏差の比形状パラメータα とβ を持つベータ分布の平均絶対偏差は次式で表される : [ 9 ]
E [ | X − E [ X ] | ] = 2 α α β β B ( α , β ) ( α + β ) α + β + 1 {\displaystyle \operatorname {E} [|X-E[X]|]={\frac {2\alpha ^{\alpha }\beta ^{\beta }}{\mathrm {B} (\alpha ,\beta )(\alpha +\beta )^{\alpha +\beta +1}}}}
平均値の周りの平均絶対偏差は、最頻値の両側に裾と変曲点を持つベータ分布、すなわちα 、β > 2のBeta( α 、 β )分布において、標準偏差よりも統計的分散 の より堅牢 な推定値となります。これは、平均からの二乗偏差ではなく、線形(絶対)偏差に依存するためです。したがって、平均からの非常に大きな偏差の影響は、標準偏差ほど過度に重み付けされません。
NLJohnson とS.Kotz [ 1 ] は、ガンマ関数 のスターリング近似 を用いて、形状パラメータの値が1より大きい場合の次の近似値を導出した(この近似値の相対誤差はα = β = 1の場合にわずか-3.5%であり、 α → ∞、β → ∞のにつれてゼロに減少する)。
mean abs. dev. from mean standard deviation = E [ | X − E [ X ] | ] var ( X ) ≈ 2 π ( 1 + 7 12 ( α + β ) − 1 12 α − 1 12 β ) , if α , β > 1. {\displaystyle {\begin{aligned}{\frac {\text{mean abs. dev. from mean}}{\text{standard deviation}}}&={\frac {\operatorname {E} [|X-E[X]|]}{\sqrt {\operatorname {var} (X)}}}\\&\approx {\sqrt {\frac {2}{\pi }}}\left(1+{\frac {7}{12(\alpha +\beta )}}{}-{\frac {1}{12\alpha }}-{\frac {1}{12\beta }}\right),{\text{ if }}\alpha ,\beta >1.\end{aligned}}}
極限α → ∞、β → ∞ では、平均絶対偏差と標準偏差の比(ベータ分布の場合)は、正規分布の同じ測度の比 と等しくなります。α = β = 1の場合、この比は に等しくなるため、α = β = 1 からα 、β → ∞ にかけて比 は8.5 % 減少します。α = β = 0 の場合、標準偏差は平均の周りの平均絶対偏差と正確に等しくなります。したがって、この比は、α = β = 0 から α = β = 1 にかけて 15% 減少し、 α = β = 0 からα 、 β → ∞ にかけ て25%減少します。ただし、α → 0 またはβ → 0 のような歪んだベータ分布の場合、標準偏差と平均絶対偏差の比は無限大に近づきます(ただし、それぞれ個別には 0 に近づきます)。これは、平均絶対偏差 が 標準偏差よりも速く 0 に近づくためです。 2 π {\displaystyle {\sqrt {\frac {2}{\pi }}}} 3 2 {\displaystyle {\frac {\sqrt {3}}{2}}}
平均μ とサンプルサイズν = α + β > 0 に関するパラメータ化を 使用すると、
α = μν 、β = (1 − μ ) ν
平均値の周りの平均絶対偏差は、平均値 μ と標本サイズν を使って次のように表すことができます。
E [ | X − E [ X ] | ] = 2 μ μ ν ( 1 − μ ) ( 1 − μ ) ν ν B ( μ ν , ( 1 − μ ) ν ) {\displaystyle \operatorname {E} [|X-E[X]|]={\frac {2\mu ^{\mu \nu }(1-\mu )^{(1-\mu )\nu }}{\nu \mathrm {B} (\mu \nu ,(1-\mu )\nu )}}}
対称分布の場合、平均は分布の中央、μ = 1/2 にあるため、次のようになります。
E [ | X − E [ X ] | ] = 2 1 − ν ν B ( ν 2 , ν 2 ) = 2 1 − ν Γ ( ν ) ν ( Γ ( ν 2 ) ) 2 lim ν → 0 ( lim μ → 1 2 E [ | X − E [ X ] | ] ) = 1 2 lim ν → ∞ ( lim μ → 1 2 E [ | X − E [ X ] | ] ) = 0 {\displaystyle {\begin{aligned}\operatorname {E} [|X-E[X]|]={\frac {2^{1-\nu }}{\nu \mathrm {B} ({\tfrac {\nu }{2}},{\tfrac {\nu }{2}})}}&={\frac {2^{1-\nu }\Gamma (\nu )}{\nu (\Gamma ({\tfrac {\nu }{2}}))^{2}}}\\\lim _{\nu \to 0}\left(\lim _{\mu \to {\frac {1}{2}}}\operatorname {E} [|X-E[X]|]\right)&={\frac {1}{2}}\\\lim _{\nu \to \infty }\left(\lim _{\mu \to {\frac {1}{2}}}\operatorname {E} [|X-E[X]|]\right)&=0\end{aligned}}}
また、上記の式から、次の限界値(指定された変数のみが限界値に近づく)が得られます。
lim β → 0 E [ | X − E [ X ] | ] = lim α → 0 E [ | X − E [ X ] | ] = 0 lim β → ∞ E [ | X − E [ X ] | ] = lim α → ∞ E [ | X − E [ X ] | ] = 0 lim μ → 0 E [ | X − E [ X ] | ] = lim μ → 1 E [ | X − E [ X ] | ] = 0 lim ν → 0 E [ | X − E [ X ] | ] = μ ( 1 − μ ) lim ν → ∞ E [ | X − E [ X ] | ] = 0 {\displaystyle {\begin{aligned}\lim _{\beta \to 0}\operatorname {E} [|X-E[X]|]&=\lim _{\alpha \to 0}\operatorname {E} [|X-E[X]|]=0\\\lim _{\beta \to \infty }\operatorname {E} [|X-E[X]|]&=\lim _{\alpha \to \infty }\operatorname {E} [|X-E[X]|]=0\\\lim _{\mu \to 0}\operatorname {E} [|X-E[X]|]&=\lim _{\mu \to 1}\operatorname {E} [|X-E[X]|]=0\\\lim _{\nu \to 0}\operatorname {E} [|X-E[X]|]&={\sqrt {\mu (1-\mu )}}\\\lim _{\nu \to \infty }\operatorname {E} [|X-E[X]|]&=0\end{aligned}}}
平均絶対差 ベータ分布の 平均絶対差は次のとおりです
M D = ∫ 0 1 ∫ 0 1 f ( x ; α , β ) f ( y ; α , β ) | x − y | d x d y = 4 α + β B ( α + β , α + β ) B ( α , α ) B ( β , β ) {\displaystyle {\begin{aligned}\mathrm {MD} &=\int _{0}^{1}\int _{0}^{1}f(x;\alpha ,\beta )\,f(y;\alpha ,\beta )\left|x-y\right|dx\,dy\\[1ex]&={\frac {4}{\alpha +\beta }}{\frac {B(\alpha +\beta ,\alpha +\beta )}{B(\alpha ,\alpha )B(\beta ,\beta )}}\end{aligned}}}
ベータ分布のジニ係数 は相対平均絶対差の半分です。
G = ( 2 α ) B ( α + β , α + β ) B ( α , α ) B ( β , β ) {\displaystyle \mathrm {G} =\left({\frac {2}{\alpha }}\right){\frac {B(\alpha +\beta ,\alpha +\beta )}{B(\alpha ,\alpha )B(\beta ,\beta )}}}
歪度 分散と平均の関数としてのベータ分布の歪度 ベータ分布の歪度(平均を中心とした三次モーメントを分散の3/2乗で正規化した値)は[ 1 ] である。
γ 1 = E [ ( X − μ ) 3 ] ( var ( X ) ) 3 / 2 = 2 ( β − α ) α + β + 1 ( α + β + 2 ) α β . {\displaystyle \gamma _{1}={\frac {\operatorname {E} \left[\left(X-\mu \right)^{3}\right]}{\left(\operatorname {var} (X)\right)^{3/2}}}={\frac {2\left(\beta -\alpha \right){\sqrt {\alpha +\beta +1}}}{\left(\alpha +\beta +2\right){\sqrt {\alpha \beta }}}}.}
上記の式でα = β とすると、γ 1 = 0 となり、 α = β の場合、分布は対称であり、したがって歪度はゼロであることが再び示されます。α < β の場合は正の歪度(右側) 、 α > β の場合は負の歪度(左側)となります。
平均μ とサンプルサイズν = α + β によるパラメータ化を 使用すると、
α = μ ν , where ν = ( α + β ) > 0 , β = ( 1 − μ ) ν , where ν = ( α + β ) > 0. {\displaystyle {\begin{aligned}\alpha &=\mu \nu ,&{\text{ where }}\nu =(\alpha +\beta )>0,\\\beta &=(1-\mu )\nu ,&{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}}
歪度は平均μ と標本サイズνで次のように表すことができます。
γ 1 = E [ ( X − μ ) 3 ] ( var ( X ) ) 3 / 2 = 2 ( 1 − 2 μ ) 1 + ν ( 2 + ν ) μ ( 1 − μ ) . {\displaystyle \gamma _{1}={\frac {\operatorname {E} [(X-\mu )^{3}]}{\left(\operatorname {var} (X)\right)^{3/2}}}={\frac {2(1-2\mu ){\sqrt {1+\nu }}}{(2+\nu ){\sqrt {\mu (1-\mu )}}}}.}
歪度は、次のように分散var と平均μ だけで表すこともできます。
γ 1 = E [ ( X − μ ) 3 ] ( var ( X ) ) 3 / 2 = 2 ( 1 − 2 μ ) var μ ( 1 − μ ) + var if var < μ ( 1 − μ ) {\displaystyle \gamma _{1}={\frac {\operatorname {E} [(X-\mu )^{3}]}{(\operatorname {var} (X))^{3/2}}}={\frac {2(1-2\mu ){\sqrt {\operatorname {var} }}}{\mu (1-\mu )+\operatorname {var} }}{\text{ if }}\operatorname {var} <\mu (1-\mu )}
添付の歪度を分散と平均の関数としてプロットすると、最大分散 (1/4) が歪度ゼロおよび対称条件 ( μ = 1/2) と結びついていること、また平均がどちらかの端にあるときに歪度 (正または負の無限大) が最大になり、確率分布の「質量」が端に集中している (最小分散) ことがわかります。
標本サイズν = α + β と分散 var に関して歪度の二乗を表す次の式は、 4つのパラメータのモーメント推定法に役立ちます。
( γ 1 ) 2 = ( E [ ( X − μ ) 3 ] ) 2 ( var ( X ) ) 3 = 4 ( 2 + ν ) 2 ( 1 var − 4 ( 1 + ν ) ) {\displaystyle (\gamma _{1})^{2}={\frac {\left(\operatorname {E} [(X-\mu )^{3}]\right)^{2}}{\left(\operatorname {var} (X)\right)^{3}}}={\frac {4}{(2+\nu )^{2}}}\left({\frac {1}{\operatorname {var} }}-4(1+\nu )\right)}
この式は、 α = β の場合に歪度がゼロになることを正しく示しています。その理由は、その場合(§ 分散を 参照)次のとおりです。 var = 1 4 ( 1 + ν ) {\displaystyle \operatorname {var} ={\frac {1}{4(1+\nu )}}}
対称的なケース(α = β )では、全範囲にわたって歪度 = 0 となり、次の制限が適用されます。
lim α = β → 0 γ 1 = lim α = β → ∞ γ 1 = lim ν → 0 γ 1 = lim ν → ∞ γ 1 = lim μ → 1 2 γ 1 = 0 {\displaystyle \lim _{\alpha =\beta \to 0}\gamma _{1}=\lim _{\alpha =\beta \to \infty }\gamma _{1}=\lim _{\nu \to 0}\gamma _{1}=\lim _{\nu \to \infty }\gamma _{1}=\lim _{\mu \to {\frac {1}{2}}}\gamma _{1}=0}
非対称の場合(α ≠ β )には、上記の式から次の限界値(注目する変数のみが限界値に近づく)が得られます。
lim α → 0 γ 1 = lim μ → 0 γ 1 = ∞ lim β → 0 γ 1 = lim μ → 1 γ 1 = − ∞ lim α → ∞ γ 1 = − 2 β , lim β → 0 ( lim α → ∞ γ 1 ) = − ∞ , lim β → ∞ ( lim α → ∞ γ 1 ) = 0 lim β → ∞ γ 1 = 2 α , lim α → 0 ( lim β → ∞ γ 1 ) = ∞ , lim α → ∞ ( lim β → ∞ γ 1 ) = 0 lim ν → 0 γ 1 = 1 − 2 μ μ ( 1 − μ ) , lim μ → 0 ( lim ν → 0 γ 1 ) = ∞ , lim μ → 1 ( lim ν → 0 γ 1 ) = − ∞ {\displaystyle {\begin{aligned}&\lim _{\alpha \to 0}\gamma _{1}=\lim _{\mu \to 0}\gamma _{1}=\infty \\&\lim _{\beta \to 0}\gamma _{1}=\lim _{\mu \to 1}\gamma _{1}=-\infty \\&\lim _{\alpha \to \infty }\gamma _{1}=-{\frac {2}{\sqrt {\beta }}},\quad \lim _{\beta \to 0}(\lim _{\alpha \to \infty }\gamma _{1})=-\infty ,\quad \lim _{\beta \to \infty }(\lim _{\alpha \to \infty }\gamma _{1})=0\\&\lim _{\beta \to \infty }\gamma _{1}={\frac {2}{\sqrt {\alpha }}},\quad \lim _{\alpha \to 0}(\lim _{\beta \to \infty }\gamma _{1})=\infty ,\quad \lim _{\alpha \to \infty }(\lim _{\beta \to \infty }\gamma _{1})=0\\&\lim _{\nu \to 0}\gamma _{1}={\frac {1-2\mu }{\sqrt {\mu (1-\mu )}}},\quad \lim _{\mu \to 0}(\lim _{\nu \to 0}\gamma _{1})=\infty ,\quad \lim _{\mu \to 1}(\lim _{\nu \to 0}\gamma _{1})=-\infty \end{aligned}}}
尖度 分散と平均の関数としてのベータ分布の過剰尖度 ベータ分布は音響解析においてギアの損傷を評価するために適用されており、ベータ分布の尖度はギアの状態を示す良い指標であることが報告されている。[ 15 ] 尖度は、人の足音によって発生する地震信号を他の信号と区別するためにも使用されている。地上を移動する人や他の物体は地震波という形で連続信号を生成するため、それらが生成する地震波に基づいて異なる物体を区別することができる。尖度は衝撃信号に敏感であるため、車両、風、騒音などによって生成される他の信号よりも、人の足音によって生成される信号に対してはるかに敏感である。[ 16 ] 残念ながら、尖度の表記法は標準化されていない。 Kenney と Keeping [ 17 ] は過剰尖度を 表す 記号 γ 2 を使用しているが、Abramowitz と Stegun [ 18 ] は 異なる用語を使用している。尖度(平均を中心とした4次モーメントを分散の2乗で正規化したもの)と過剰尖度の混同を避けるため[ 19 ] 、記号を使用する場合は次のように表記する。[ 9 ] [ 20 ]
excess kurtosis = kurtosis − 3 = E [ ( X − μ ) 4 ] ( var ( X ) ) 2 − 3 = 6 [ α 3 − α 2 ( 2 β − 1 ) + β 2 ( β + 1 ) − 2 α β ( β + 2 ) ] α β ( α + β + 2 ) ( α + β + 3 ) = 6 [ ( α − β ) 2 ( α + β + 1 ) − α β ( α + β + 2 ) ] α β ( α + β + 2 ) ( α + β + 3 ) . {\displaystyle {\begin{aligned}{\text{excess kurtosis}}&={\text{kurtosis}}-3\\&={\frac {\operatorname {E} [(X-\mu )^{4}]}{(\operatorname {var} (X))^{2}}}-3\\&={\frac {6[\alpha ^{3}-\alpha ^{2}(2\beta -1)+\beta ^{2}(\beta +1)-2\alpha \beta (\beta +2)]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}\\&={\frac {6[(\alpha -\beta )^{2}(\alpha +\beta +1)-\alpha \beta (\alpha +\beta +2)]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}.\end{aligned}}}
上記の式で α = β とすると、
excess kurtosis = − 6 3 + 2 α if α = β . {\displaystyle {\text{excess kurtosis}}=-{\frac {6}{3+2\alpha }}{\text{ if }}\alpha =\beta .}
したがって、対称ベータ分布の場合、過剰尖度は負の値となり、{ α = β } → 0 の極限で最小値 -2 から増加し、{ α = β } → ∞ の極限で最大値 0 に近づきます。-2 は、あらゆる分布(ベータ分布だけでなく、あらゆる種類の分布)が達成できる過剰尖度の最小値です。この最小値は、すべての確率密度が x = 0 とx = 1の両端に完全に集中し、その間に何も存在しないときに達成されます。つまり、両端で確率が 1/2 ずつ等しくなる 2 点ベルヌーイ分布です (コイントス:詳細については、以下の「歪度の二乗で制限される尖度」のセクションを参照してください)。尖度 を確率分布の「潜在的な外れ値」(または「潜在的なまれな極端な値」)の尺度として説明することは、ベータ分布を含むすべての分布に当てはまります。ベータ分布において、極値が稀に発生する場合、尖度は高くなります。そうでない場合、尖度は低くなります。α ≠ β の歪んだベータ分布では、モードから離れた側で時折極値が発生するため、過剰尖度は無制限の正の値に達する可能性があります(特に、有限βで α → 0 の場合、または有限αで β → 0 の場合)。尖度は最小となり、質量密度が両端に均等に集中し(したがって平均が中央に位置し)、両端の間には確率質量密度は存在しません。
平均μ とサンプルサイズν = α + β によるパラメータ化を 使用すると、
α = μ ν , where ν = ( α + β ) > 0 β = ( 1 − μ ) ν , where ν = ( α + β ) > 0. {\displaystyle {\begin{aligned}\alpha &{}=\mu \nu ,{\text{ where }}\nu =(\alpha +\beta )>0\\\beta &{}=(1-\mu )\nu ,{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}}
過剰尖度は平均μ と標本サイズν を用いて次のように表すことができます。
excess kurtosis = 6 3 + ν ( ( 1 − 2 μ ) 2 ( 1 + ν ) μ ( 1 − μ ) ( 2 + ν ) − 1 ) {\displaystyle {\text{excess kurtosis}}={\frac {6}{3+\nu }}{\bigg (}{\frac {(1-2\mu )^{2}(1+\nu )}{\mu (1-\mu )(2+\nu )}}-1{\bigg )}}
過剰尖度は、分散 var とサンプル サイズν という 2 つのパラメータだけで次のように表すこともできます。
excess kurtosis = 6 ( 3 + ν ) ( 2 + ν ) ( 1 var − 6 − 5 ν ) if var < μ ( 1 − μ ) {\displaystyle {\text{excess kurtosis}}={\frac {6}{(3+\nu )(2+\nu )}}\left({\frac {1}{\text{ var }}}-6-5\nu \right){\text{ if }}{\text{var}}<\mu (1-\mu )}
分散var と平均μ に関しては次のようになります。
excess kurtosis = 6 var ( 1 − var − 5 μ ( 1 − μ ) ) ( var + μ ( 1 − μ ) ) ( 2 var + μ ( 1 − μ ) ) if var < μ ( 1 − μ ) {\displaystyle {\text{excess kurtosis}}={\frac {6{\text{ var }}(1-{\text{ var }}-5\mu (1-\mu ))}{({\text{var }}+\mu (1-\mu ))(2{\text{ var }}+\mu (1-\mu ))}}{\text{ if }}{\text{var}}<\mu (1-\mu )}
過剰尖度を分散と平均の関数としてプロットすると、過剰尖度の最小値 (-2、これはあらゆる分布の過剰尖度の最小値) が、分散の最大値 (1/4) および対称条件、つまり平均が中点 ( μ = 1/2) で発生することと密接に関係していることがわかります。これは、歪度がゼロで、 α = β = 0の対称ケースで発生します。極限では、これは、ディラックのデルタ関数の 各端x = 0 およびx = 1で確率が 1/2 で等しく、その他のすべての場所で確率がゼロである 2 点ベルヌーイ分布 です(コインを投げるとき、コインの一方の面はx = 0 で、もう一方の面はx = 1 です)。分散が最大になるのは、分布が二峰性であり、両端の 2 つのモード (スパイク) の間に何も存在しないためです。過剰尖度は最小です。つまり、確率密度の「質量」は平均でゼロとなり、両端の2つのピークに集中します。過剰尖度は、確率密度関数が両端に2つのスパイクを持つとき(分布のいずれの場合も)、最小値に達します。つまり、2つのピークの間に何もない、2つのピークを持つ状態です。
一方、プロットは、平均がどちらかの端(μ = 0 またはμ = 1)に近い極端に歪んだケースでは、分散はゼロに近く、分布の平均がどちらかの端に近づくと過剰尖度が急速に無限大に近づくことを示しています。
あるいは、過剰尖度は、歪度の二乗とサンプル サイズ ν という 2 つのパラメータだけで次のように表すこともできます。
excess kurtosis = 6 3 + ν ( ( 2 + ν ) 4 ( skewness ) 2 − 1 ) if (skewness) 2 − 2 < excess kurtosis < 3 2 ( skewness ) 2 {\displaystyle {\text{excess kurtosis}}={\frac {6}{3+\nu }}{\bigg (}{\frac {(2+\nu )}{4}}({\text{skewness}})^{2}-1{\bigg )}{\text{ if (skewness)}}^{2}-2<{\text{excess kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}}
この最後の式から、カール・ピアソン [ 21 ] が1世紀以上前にベータ分布について発表したのと同じ極限を得ることができます(後述の「歪度の2乗で制限される尖度」の項を参照)。上記の式でα + β = ν = 0と設定すると、ピアソンの下限値が得られます(この境界値(過剰尖度 + 2 − 歪度 2 = 0) を下回る歪度と過剰尖度の値は どの分布でも発生しないため、カール・ピアソンはこの境界値より下の領域を「不可能領域」と適切に呼びました)。α + β = ν → ∞の極限は、 ピアソンの上限値を決定します。
lim ν → 0 excess kurtosis = ( skewness ) 2 − 2 lim ν → ∞ excess kurtosis = 3 2 ( skewness ) 2 {\displaystyle {\begin{aligned}&\lim _{\nu \to 0}{\text{excess kurtosis}}=({\text{skewness}})^{2}-2\\&\lim _{\nu \to \infty }{\text{excess kurtosis}}={\tfrac {3}{2}}({\text{skewness}})^{2}\end{aligned}}}
したがって:
( skewness ) 2 − 2 < excess kurtosis < 3 2 ( skewness ) 2 {\displaystyle ({\text{skewness}})^{2}-2<{\text{excess kurtosis}}<{\tfrac {3}{2}}({\text{skewness}})^{2}}
ν = α + β の値は、 ν が 0 から無限大 (0 < ν < ∞) までの範囲にあり 、過剰尖度と二乗歪度の平面におけるベータ分布の全領域にわたります。
対称的な場合(α = β )には、次の制限が適用されます。
lim α = β → 0 excess kurtosis = − 2 lim α = β → ∞ excess kurtosis = 0 lim μ → 1 2 excess kurtosis = − 6 3 + ν {\displaystyle {\begin{aligned}&\lim _{\alpha =\beta \to 0}{\text{excess kurtosis}}=-2\\&\lim _{\alpha =\beta \to \infty }{\text{excess kurtosis}}=0\\&\lim _{\mu \to {\frac {1}{2}}}{\text{excess kurtosis}}=-{\frac {6}{3+\nu }}\end{aligned}}}
非対称の場合(α ≠ β )には、上記の式から次の極限(注目する変数のみが極限に近づく)が得られます。
lim α → 0 excess kurtosis = lim β → 0 excess kurtosis = lim μ → 0 excess kurtosis = lim μ → 1 excess kurtosis = ∞ lim α → ∞ excess kurtosis = 6 β , lim β → 0 ( lim α → ∞ excess kurtosis ) = ∞ , lim β → ∞ ( lim α → ∞ excess kurtosis ) = 0 lim β → ∞ excess kurtosis = 6 α , lim α → 0 ( lim β → ∞ excess kurtosis ) = ∞ , lim α → ∞ ( lim β → ∞ excess kurtosis ) = 0 lim ν → 0 excess kurtosis = − 6 + 1 μ ( 1 − μ ) , lim μ → 0 ( lim ν → 0 excess kurtosis ) = ∞ , lim μ → 1 ( lim ν → 0 excess kurtosis ) = ∞ {\displaystyle {\begin{aligned}&\lim _{\alpha \to 0}{\text{excess kurtosis}}=\lim _{\beta \to 0}{\text{excess kurtosis}}=\lim _{\mu \to 0}{\text{excess kurtosis}}=\lim _{\mu \to 1}{\text{excess kurtosis}}=\infty \\&\lim _{\alpha \to \infty }{\text{excess kurtosis}}={\frac {6}{\beta }},{\text{ }}\lim _{\beta \to 0}(\lim _{\alpha \to \infty }{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\beta \to \infty }(\lim _{\alpha \to \infty }{\text{excess kurtosis}})=0\\&\lim _{\beta \to \infty }{\text{excess kurtosis}}={\frac {6}{\alpha }},{\text{ }}\lim _{\alpha \to 0}(\lim _{\beta \to \infty }{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\alpha \to \infty }(\lim _{\beta \to \infty }{\text{excess kurtosis}})=0\\&\lim _{\nu \to 0}{\text{excess kurtosis}}=-6+{\frac {1}{\mu (1-\mu )}},{\text{ }}\lim _{\mu \to 0}(\lim _{\nu \to 0}{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\mu \to 1}(\lim _{\nu \to 0}{\text{excess kurtosis}})=\infty \end{aligned}}}
特性関数 特性関数(対称関数) の場合、α = β は25から0の範囲Re(特性関数) 対称ケースα = β は0から25の範囲Re(特性関数) β = α + 1/2; α は25から0の範囲Re(特性関数) α = β + 1/2; β は25から0の範囲Re(特性関数) α = β + 1/2; β は0から25の範囲特性関数は確率密度関数の フーリエ変換 である。ベータ分布の特性関数はクンマーの合流型超幾何関数 (第一種)である。[ 1 ] [ 18 ] [ 22 ]
φ X ( α ; β ; t ) = E [ e i t X ] = ∫ 0 1 e i t x f ( x ; α , β ) d x = 1 F 1 ( α ; α + β ; i t ) = ∑ n = 0 ∞ α n ¯ ( i t ) n ( α + β ) n ¯ n ! = 1 + ∑ k = 1 ∞ ( ∏ r = 0 k − 1 α + r α + β + r ) ( i t ) k k ! {\displaystyle {\begin{aligned}\varphi _{X}(\alpha ;\beta ;t)&=\operatorname {E} \left[e^{itX}\right]\\&=\int _{0}^{1}e^{itx}f(x;\alpha ,\beta )\,dx\\&={}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\!\\&=\sum _{n=0}^{\infty }{\frac {\alpha ^{\overline {n}}(it)^{n}}{(\alpha +\beta )^{\overline {n}}n!}}\\&=1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {(it)^{k}}{k!}}\end{aligned}}} ここで
x n ¯ = x ( x + 1 ) ( x + 2 ) ⋯ ( x + n − 1 ) {\displaystyle x^{\overline {n}}=x(x+1)(x+2)\cdots (x+n-1)} は上昇階乗 です。t = 0 の場合の特性関数の値は 1です
φ X ( α ; β ; 0 ) = 1 F 1 ( α ; α + β ; 0 ) = 1. {\displaystyle \varphi _{X}(\alpha ;\beta ;0)={}_{1}F_{1}(\alpha ;\alpha +\beta ;0)=1.}
また、特性関数の実部と虚部は変数t の原点に関して次の対称性を持ちます。
Re [ 1 F 1 ( α ; α + β ; i t ) ] = Re [ 1 F 1 ( α ; α + β ; − i t ) ] {\displaystyle \operatorname {Re} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\right]=\operatorname {Re} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)\right]} Im [ 1 F 1 ( α ; α + β ; i t ) ] = − Im [ 1 F 1 ( α ; α + β ; − i t ) ] {\displaystyle \operatorname {Im} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\right]=-\operatorname {Im} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)\right]}
対称的なケースα = β では、ベータ分布の特性関数がベッセル関数 に簡略化されます。これは、特別なケースα + β = 2 αでは 、合流型超幾何関数 (第 1 種) が、次のようにクンマーの第 2 変換を使用して ベッセル関数 (第 1 種の修正ベッセル関数)に簡略化されるためです。 I α − 1 2 {\displaystyle I_{\alpha -{\frac {1}{2}}}}
1 F 1 ( α ; 2 α ; i t ) = e i t 2 0 F 1 ( ; α + 1 2 ; ( i t ) 2 16 ) = e i t 2 ( i t 4 ) 1 2 − α Γ ( α + 1 2 ) I α − 1 2 ( i t 2 ) . {\displaystyle {\begin{aligned}{}_{1}F_{1}(\alpha ;2\alpha ;it)&=e^{\frac {it}{2}}{}_{0}F_{1}\left(;\alpha +{\tfrac {1}{2}};{\frac {(it)^{2}}{16}}\right)\\&=e^{\frac {it}{2}}\left({\frac {it}{4}}\right)^{{\frac {1}{2}}-\alpha }\Gamma \left(\alpha +{\tfrac {1}{2}}\right)I_{\alpha -{\frac {1}{2}}}\left({\frac {it}{2}}\right).\end{aligned}}}
添付のグラフでは、対称 ( α = β ) および歪んだ ( α ≠ β ) 場合のベータ分布の特性関数の 実部 (Re)が表示されています。
その他のモーメント
モーメント生成関数 また、モーメント生成関数 は [ 1 ] [ 9 ]
M X ( α ; β ; t ) = E [ e t X ] = ∫ 0 1 e t x f ( x ; α , β ) d x = 1 F 1 ( α ; α + β ; t ) = ∑ n = 0 ∞ α n ¯ ( α + β ) n ¯ t n n ! = 1 + ∑ k = 1 ∞ ( ∏ r = 0 k − 1 α + r α + β + r ) t k k ! . {\displaystyle {\begin{aligned}M_{X}(\alpha ;\beta ;t)&=\operatorname {E} \left[e^{tX}\right]\\[4pt]&=\int _{0}^{1}e^{tx}f(x;\alpha ,\beta )\,dx\\[4pt]&={}_{1}F_{1}(\alpha ;\alpha +\beta ;t)\\[4pt]&=\sum _{n=0}^{\infty }{\frac {\alpha ^{\overline {n}}}{(\alpha +\beta )^{\overline {n}}}}{\frac {t^{n}}{n!}}\\[4pt]&=1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {t^{k}}{k!}}.\end{aligned}}}
特にM X ( α ; β ; 0) = 1 です。
高次モーメント モーメント生成関数 を用いると、k 次の生のモーメントは [ 1 ] の係数 で与えられる
∏ r = 0 k − 1 α + r α + β + r {\displaystyle \prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}}
モーメント母 関数の級数における(指数級数)項の乗算( t k k ! ) {\displaystyle \left({\frac {t^{k}}{k!}}\right)}
E [ X k ] = α k ¯ ( α + β ) k ¯ = ∏ r = 0 k − 1 α + r α + β + r {\displaystyle \operatorname {E} [X^{k}]={\frac {\alpha ^{\overline {k}}}{(\alpha +\beta )^{\overline {k}}}}=\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}}
ここで、( x ) ( k ) は階乗を表す ポッホハマー記号 である。これは再帰的に次のように書くこともできる。
E [ X k ] = α + k − 1 α + β + k − 1 E [ X k − 1 ] . {\displaystyle \operatorname {E} [X^{k}]={\frac {\alpha +k-1}{\alpha +\beta +k-1}}\operatorname {E} [X^{k-1}].}
モーメント生成関数は正の収束半径を持つので、ベータ分布はそのモーメントによって決定さ れる。[ 23 ] M X ( α ; β ; ⋅ ) {\displaystyle M_{X}(\alpha ;\beta ;\cdot )}
変換された確率変数[ 1 ] に対して、以下の期待値を示すこともできる。ここで、確率変数Xはパラメータ α とβ を持つベータ分布に従う:X ~ Beta( α , β )。変数1 − X の期待値は 、 X に基づく期待値の鏡面対称性を持つ :
E [ 1 − X ] = β α + β E [ X ( 1 − X ) ] = E [ ( 1 − X ) X ] = α β ( α + β ) ( α + β + 1 ) {\displaystyle {\begin{aligned}\operatorname {E} [1-X]&={\frac {\beta }{\alpha +\beta }}\\\operatorname {E} [X(1-X)]&=\operatorname {E} [(1-X)X]={\frac {\alpha \beta }{(\alpha +\beta )(\alpha +\beta +1)}}\end{aligned}}}
ベータ分布の確率密度関数の鏡面対称性により、変数X と1 − X に基づく分散は同一であり、X の共分散(1 − X は分散の負である:
var [ ( 1 − X ) ] = var [ X ] = − cov [ X , ( 1 − X ) ] = α β ( α + β ) 2 ( α + β + 1 ) {\displaystyle \operatorname {var} [(1-X)]=\operatorname {var} [X]=-\operatorname {cov} [X,(1-X)]={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}}
これらは反転変数の期待値です(これらは調和平均に関連しています。§調和平均を 参照してください)。
E [ 1 X ] = α + β − 1 α − 1 if α > 1 E [ 1 1 − X ] = α + β − 1 β − 1 if β > 1 {\displaystyle {\begin{aligned}\operatorname {E} \left[{\frac {1}{X}}\right]&={\frac {\alpha +\beta -1}{\alpha -1}}&&{\text{ if }}\alpha >1\\\operatorname {E} \left[{\frac {1}{1-X}}\right]&={\frac {\alpha +\beta -1}{\beta -1}}&&{\text{ if }}\beta >1\end{aligned}}}
変数X をその鏡像X /(1 − X )で割る次の変換は、「逆ベータ分布」または ベータプライム分布 (第2種ベータ分布またはピアソンのタイプVI とも呼ばれる)の期待値をもたらす。 [ 1 ]
E [ X 1 − X ] = α β − 1 if β > 1 E [ 1 − X X ] = β α − 1 if α > 1 {\displaystyle {\begin{aligned}\operatorname {E} \left[{\frac {X}{1-X}}\right]&={\frac {\alpha }{\beta -1}}&&{\text{ if }}\beta >1\\\operatorname {E} \left[{\frac {1-X}{X}}\right]&={\frac {\beta }{\alpha -1}}&&{\text{ if }}\alpha >1\end{aligned}}}
これらの変換された変数の分散は、対応する変数を中心とした2次モーメントの期待値として積分によって得ることができます。
var [ 1 X ] = E [ ( 1 X − E [ 1 X ] ) 2 ] = var [ 1 − X X ] = E [ ( 1 − X X − E [ 1 − X X ] ) 2 ] = β ( α + β − 1 ) ( α − 2 ) ( α − 1 ) 2 if α > 2 {\displaystyle {\begin{aligned}\operatorname {var} \left[{\frac {1}{X}}\right]&=\operatorname {E} \left[\left({\frac {1}{X}}-\operatorname {E} \left[{\frac {1}{X}}\right]\right)^{2}\right]=\operatorname {var} \left[{\frac {1-X}{X}}\right]\\&=\operatorname {E} \left[\left({\frac {1-X}{X}}-\operatorname {E} \left[{\frac {1-X}{X}}\right]\right)^{2}\right]={\frac {\beta (\alpha +\beta -1)}{\left(\alpha -2\right)\left(\alpha -1\right)^{2}}}{\text{ if }}\alpha >2\end{aligned}}}
変数X の分散をその鏡像(X /(1− X ))で割ると、「逆ベータ分布」またはベータプライム分布 (第2種ベータ分布またはピアソンのタイプVI とも呼ばれる)の分散が得られる。[ 1 ]
var [ 1 1 − X ] = E [ ( 1 1 − X − E [ 1 1 − X ] ) 2 ] = var [ X 1 − X ] = E [ ( X 1 − X − E [ X 1 − X ] ) 2 ] = α ( α + β − 1 ) ( β − 2 ) ( β − 1 ) 2 if β > 2 {\displaystyle {\begin{aligned}\operatorname {var} \left[{\frac {1}{1-X}}\right]&=\operatorname {E} \left[\left({\frac {1}{1-X}}-\operatorname {E} \left[{\frac {1}{1-X}}\right]\right)^{2}\right]=\operatorname {var} \left[{\frac {X}{1-X}}\right]\\[1ex]&=\operatorname {E} \left[\left({\frac {X}{1-X}}-\operatorname {E} \left[{\frac {X}{1-X}}\right]\right)^{2}\right]={\frac {\alpha (\alpha +\beta -1)}{\left(\beta -2\right)\left(\beta -1\right)^{2}}}{\text{ if }}\beta >2\end{aligned}}}
共分散は次のとおりです。
cov [ 1 X , 1 1 − X ] = cov [ 1 − X X , X 1 − X ] = cov [ 1 X , X 1 − X ] = cov [ 1 − X X , 1 1 − X ] = α + β − 1 ( α − 1 ) ( β − 1 ) if α , β > 1 {\displaystyle {\begin{aligned}\operatorname {cov} \left[{\frac {1}{X}},{\frac {1}{1-X}}\right]&=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {X}{1-X}}\right]=\operatorname {cov} \left[{\frac {1}{X}},{\frac {X}{1-X}}\right]\\[1ex]&=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {1}{1-X}}\right]={\frac {\alpha +\beta -1}{(\alpha -1)(\beta -1)}}{\text{ if }}\alpha ,\beta >1\end{aligned}}} これらの期待値と分散は、4パラメータのフィッシャー情報行列(§ フィッシャー情報量 ) に現れます
logit( X ) = ln( X /(1 − X )) (縦軸) と0から1の領域におけるX (横軸) のプロット。ロジット変換は興味深いもので、通常、様々な形状(J字型を含む)をロジット変数上の(通常は歪んだ)ベル型密度に変換し、元の変数上の端の特異性を除去することができる。 この節では、対数変換 の期待値(最尤 推定に有用。§パラメータ推定、最尤推定 を 参照)について論じる。以下の対数線形変換は、幾何平均G X および G 1− X と関連している( § 幾何平均 を 参照)。
E [ ln X ] = ψ ( α ) − ψ ( α + β ) = − E [ ln 1 X ] , E [ ln ( 1 − X ) ] = ψ ( β ) − ψ ( α + β ) = − E [ ln 1 1 − X ] . {\displaystyle {\begin{aligned}\operatorname {E} [\ln X]&=\psi (\alpha )-\psi (\alpha +\beta )=-\operatorname {E} \left[\ln {\frac {1}{X}}\right],\\\operatorname {E} [\ln(1-X)]&=\psi (\beta )-\psi (\alpha +\beta )=-\operatorname {E} \left[\ln {\frac {1}{1-X}}\right].\end{aligned}}}
ここで、ディガンマ関数 ψ ( α ) は ガンマ関数 の対数導関数 として定義されます。[ 18 ]
ψ ( α ) = d d α ln Γ ( α ) {\displaystyle \psi (\alpha )={\frac {d}{d\alpha }}\ln \Gamma (\alpha )}
ロジット 変換は興味深いもので、[ 24 ] 様々な形状(J字型を含む)をロジット変数上の(通常は歪んだ)ベル型密度に変換し、元の変数上の端の特異点を除去することができる。
E [ ln X 1 − X ] = ψ ( α ) − ψ ( β ) = E [ ln X ] + E [ ln 1 1 − X ] , E [ ln 1 − X X ] = ψ ( β ) − ψ ( α ) = − E [ ln X 1 − X ] . {\displaystyle {\begin{aligned}\operatorname {E} \left[\ln {\frac {X}{1-X}}\right]&=\psi (\alpha )-\psi (\beta )=\operatorname {E} [\ln X]+\operatorname {E} \left[\ln {\frac {1}{1-X}}\right],\\\operatorname {E} \left[\ln {\frac {1-X}{X}}\right]&=\psi (\beta )-\psi (\alpha )=-\operatorname {E} \left[\ln {\frac {X}{1-X}}\right].\end{aligned}}}
ジョンソン[ 25 ] は、ロジット 変換された変数ln( X /1− X ) の分布を、そのモーメント生成関数と形状パラメータの大きな値に対する近似を含めて考察した。この変換は、元の変数X に基づく有限台[0, 1]を、実数直線の両方向(−∞, +∞)における無限台へと拡張する。ベータ変量のロジットはロジスティックベータ分布 に従う。
高次の対数モーメントは、ベータ分布を2つのガンマ分布の比として表現し、積分微分することで導出できます。高次のポリガンマ関数を用いて次のように表すことができます。
E [ ln 2 ( X ) ] = ( ψ ( α ) − ψ ( α + β ) ) 2 + ψ 1 ( α ) − ψ 1 ( α + β ) , E [ ln 2 ( 1 − X ) ] = ( ψ ( β ) − ψ ( α + β ) ) 2 + ψ 1 ( β ) − ψ 1 ( α + β ) , E [ ln ( X ) ln ( 1 − X ) ] = ( ψ ( α ) − ψ ( α + β ) ) ( ψ ( β ) − ψ ( α + β ) ) − ψ 1 ( α + β ) . {\displaystyle {\begin{aligned}\operatorname {E} \left[\ln ^{2}(X)\right]&=(\psi (\alpha )-\psi (\alpha +\beta ))^{2}+\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ),\\\operatorname {E} \left[\ln ^{2}(1-X)\right]&=(\psi (\beta )-\psi (\alpha +\beta ))^{2}+\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ),\\\operatorname {E} \left[\ln(X)\ln(1-X)\right]&=(\psi (\alpha )-\psi (\alpha +\beta ))(\psi (\beta )-\psi (\alpha +\beta ))-\psi _{1}(\alpha +\beta ).\end{aligned}}}
したがって、対数変数の分散 とln( X )とln(1− X ) の共分散は次のようになります。
cov [ ln X , ln ( 1 − X ) ] = E [ ln X ln ( 1 − X ) ] − E [ ln X ] E [ ln ( 1 − X ) ] = − ψ 1 ( α + β ) var [ ln X ] = E [ ln 2 X ] − ( E [ ln X ] ) 2 = ψ 1 ( α ) − ψ 1 ( α + β ) = ψ 1 ( α ) + cov [ ln X , ln ( 1 − X ) ] var [ ln ( 1 − X ) ] = E [ ln 2 ( 1 − X ) ] − ( E [ ln ( 1 − X ) ] ) 2 = ψ 1 ( β ) − ψ 1 ( α + β ) = ψ 1 ( β ) + cov [ ln X , ln ( 1 − X ) ] {\displaystyle {\begin{aligned}\operatorname {cov} [\ln X,\ln(1-X)]&=\operatorname {E} \left[\ln X\ln(1-X)\right]-\operatorname {E} [\ln X]\operatorname {E} [\ln(1-X)]\\&=-\psi _{1}(\alpha +\beta )\\&\\\operatorname {var} [\ln X]&=\operatorname {E} [\ln ^{2}X]-(\operatorname {E} [\ln X])^{2}\\&=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )\\&=\psi _{1}(\alpha )+\operatorname {cov} [\ln X,\ln(1-X)]\\&\\\operatorname {var} [\ln(1-X)]&=\operatorname {E} [\ln ^{2}(1-X)]-(\operatorname {E} [\ln(1-X)])^{2}\\&=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )\\&=\psi _{1}(\beta )+\operatorname {cov} [\ln X,\ln(1-X)]\end{aligned}}}
ここで、三ガンマ関数 (ψ 1 ( α )と表記)は、ポリガンマ関数 の2番目であり、二ガンマ 関数の導関数として定義されます。
ψ 1 ( α ) = d 2 ln Γ ( α ) d α 2 = d ψ ( α ) d α . {\displaystyle \psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{d\alpha ^{2}}}={\frac {d\psi (\alpha )}{d\alpha }}.}
対数変換された変数X と (1 − X )の分散と共分散は一般に異なります。これは、対数が負の無限大に近づくにつれて変数がゼロに近づくため、対数変換によって元の変数X と (1 − X ) の鏡面対称性が破壊されるためです。
これらの対数分散と共分散は、ベータ分布のフィッシャー情報 行列の要素です。また、対数尤度関数の曲率の尺度でもあります(最尤推定のセクションを参照)。
対数逆変数の分散は対数変数の分散と同一です。
var [ ln 1 X ] = var [ ln X ] = ψ 1 ( α ) − ψ 1 ( α + β ) , var [ ln 1 1 − X ] = var [ ln ( 1 − X ) ] = ψ 1 ( β ) − ψ 1 ( α + β ) , cov [ ln 1 X , ln 1 1 − X ] = cov [ ln X , ln ( 1 − X ) ] = − ψ 1 ( α + β ) . {\displaystyle {\begin{aligned}\operatorname {var} \left[\ln {\frac {1}{X}}\right]&=\operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ),\\\operatorname {var} \left[\ln {\frac {1}{1-X}}\right]&=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ),\\\operatorname {cov} \left[\ln {\frac {1}{X}},\,\ln {\frac {1}{1-X}}\right]&=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta ).\end{aligned}}}
また、ロジット 変換された変数の分散は
var [ ln X 1 − X ] = var [ ln 1 − X X ] = − cov [ ln X 1 − X , ln 1 − X X ] = ψ 1 ( α ) + ψ 1 ( β ) . {\displaystyle {\begin{aligned}\operatorname {var} \left[\ln {\frac {X}{1-X}}\right]&=\operatorname {var} \left[\ln {\frac {1-X}{X}}\right]\\&=-\operatorname {cov} \left[\ln {\frac {X}{1-X}},\,\ln {\frac {1-X}{X}}\right]\\[1ex]&=\psi _{1}(\alpha )+\psi _{1}(\beta ).\end{aligned}}}
ベータ分布に従う確率変数X ~ Beta( α , β )が与えられたとき、X の微分エントロピーは( nats で測定)[ 26 ] 確率密度関数 の対数の負の期待値である。
h ( X ) = E [ − ln f ( X ; α , β ) ] = ∫ 0 1 − f ( x ; α , β ) ln f ( x ; α , β ) d x = ln B ( α , β ) − ( α − 1 ) ψ ( α ) − ( β − 1 ) ψ ( β ) + ( α + β − 2 ) ψ ( α + β ) {\displaystyle {\begin{aligned}h(X)&=\operatorname {E} \left[-\ln f(X;\alpha ,\beta )\right]\\[4pt]&=\int _{0}^{1}-f(x;\alpha ,\beta )\ln f(x;\alpha ,\beta )\,dx\\[4pt]&=\ln \mathrm {B} (\alpha ,\beta )-(\alpha -1)\psi (\alpha )-(\beta -1)\psi (\beta )+(\alpha +\beta -2)\psi (\alpha +\beta )\end{aligned}}}
ここで、f ( x ; α , β )はベータ分布の 確率密度関数である。
f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) {\displaystyle f(x;\alpha ,\beta )={\frac {x^{\alpha -1}\left(1-x\right)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}}
二ガンマ関数 ψ は、オイラーの 調和数 の積分公式の結果として微分エントロピーの式に現れ、この積分から次の式が得られます。
∫ 0 1 1 − x α − 1 1 − x d x = ψ ( α ) − ψ ( 1 ) {\displaystyle \int _{0}^{1}{\frac {1-x^{\alpha -1}}{1-x}}\,dx=\psi (\alpha )-\psi (1)}
ベータ分布の微分エントロピーは、αとβが0より大きいすべての値に対して負になります。ただし 、 α = β = 1 (この値ではベータ分布は 一様分布 と同じ)の場合には、微分エントロピーは 最大 値の0に達します。すべての事象が等確率であるときに不確実性が最大になるため、ベータ分布が一様分布と等しくなるときにエントロピーが最大になると予想されます。
α またはβ が0 に近づくと、微分エントロピーは 最小 値の負の無限大に近づきます。α またはβ (いずれかまたは両方)が 0 に近づくと、秩序が最大になります。つまり、すべての確率密度が端に集中し、端の間に位置するポイントでは確率密度が 0 になります。 同様に、α またはβ (いずれかまたは両方)が無限大に近づくと、微分エントロピーは最小値の負の無限大に近づき、秩序が最大になります。α またはβ のいずれかが無限大に近づき(もう一方は有限)、すべての確率密度が端に集中し、その他の場所では確率密度が 0 になります。 両方の形状パラメータが等しく(対称的なケース)、α = β であり、それらが同時に無限大に近づくと、確率密度は中央のx = 1/2 に集中したスパイク(ディラックのデルタ関数 )になり 、したがって中央のx = 1/2 で確率が 100% になり、その他の場所では確率が 0 になります。
(連続分布の場合の)微分エントロピーは 、シャノンが最初の論文(そこでは「連続分布のエントロピー」と名付けた)の結論部分で導入されました。この論文では、彼は離散エントロピーを 定義しました。[ 27 ] それ以来、微分エントロピーは離散エントロピーの無限小極限から無限大のオフセットだけ異なる可能性があることが知られており、したがって微分エントロピーは負の値になることがあります(ベータ分布の場合のように)。本当に重要なのは、エントロピーの相対的な値です。
2つのベータ分布に従う確率変数X 1 ~ Beta( α , β )とX 2 ~ Beta( α ′ , β ′ )が与えられたとき、クロスエントロピー は(ナット単位で測定)[ 28 ]
H ( X 1 , X 2 ) = ∫ 0 1 − f ( x ; α , β ) ln f ( x ; α ′ , β ′ ) d x = ln B ( α ′ , β ′ ) − ( α ′ − 1 ) ψ ( α ) − ( β ′ − 1 ) ψ ( β ) + ( α ′ + β ′ − 2 ) ψ ( α + β ) . {\displaystyle {\begin{aligned}H(X_{1},X_{2})&=\int _{0}^{1}-f(x;\alpha ,\beta )\ln f(x;\alpha ',\beta ')\,dx\\[4pt]&=\ln \mathrm {B} (\alpha ',\beta ')-(\alpha '-1)\psi (\alpha )-(\beta '-1)\psi (\beta )+\left(\alpha '+\beta '-2\right)\psi (\alpha +\beta ).\end{aligned}}}
クロスエントロピーは 、2つの仮説間の距離を測定する誤差指標として用いられてきた。[ 29 ] [ 30 ] クロスエントロピーの絶対値は、2つの分布が同一の場合に最小となる。これは、対数最大尤度[ 28 ] に最も関連性の高い情報指標である(「パラメータ推定:最大尤度推定」のセクションを参照)。
相対エントロピー、あるいはカルバック・ライブラー情報量 D KL ( X 1 || X 2 ) は、分布が実際には X 1 ~ Beta( α , β ) であるにもかかわらず、分布が X 2 ~ Beta( α ′ , β ′ )で ある と仮定する ことの 非 効率 性 を 示す尺度 です 。これは以下のように定義されます(単位は nats)。
D K L ( X 1 ∥ X 2 ) = ∫ 0 1 f ( x ; α , β ) ln f ( x ; α , β ) f ( x ; α ′ , β ′ ) d x = ( ∫ 0 1 f ( x ; α , β ) ln f ( x ; α , β ) d x ) − ( ∫ 0 1 f ( x ; α , β ) ln f ( x ; α ′ , β ′ ) d x ) = − h ( X 1 ) + H ( X 1 , X 2 ) = ln B ( α ′ , β ′ ) B ( α , β ) + ( α − α ′ ) ψ ( α ) + ( β − β ′ ) ψ ( β ) + ( α ′ − α + β ′ − β ) ψ ( α + β ) . {\displaystyle {\begin{aligned}D_{\mathrm {KL} }(X_{1}\parallel X_{2})&=\int _{0}^{1}f(x;\alpha ,\beta )\,\ln {\frac {f(x;\alpha ,\beta )}{f(x;\alpha ',\beta ')}}\,dx\\[4pt]&=\left(\int _{0}^{1}f(x;\alpha ,\beta )\ln f(x;\alpha ,\beta )\,dx\right)-\left(\int _{0}^{1}f(x;\alpha ,\beta )\ln f(x;\alpha ',\beta ')\,dx\right)\\[4pt]&=-h(X_{1})+H(X_{1},X_{2})\\[4pt]&=\ln {\frac {\mathrm {B} (\alpha ',\beta ')}{\mathrm {B} (\alpha ,\beta )}}+\left(\alpha -\alpha '\right)\psi (\alpha )+\left(\beta -\beta '\right)\psi (\beta )+\left(\alpha '-\alpha +\beta '-\beta \right)\psi (\alpha +\beta ).\end{aligned}}}
相対エントロピー、すなわちカルバック・ライブラー情報 は常に非負です。以下に数値例をいくつか示します。
X 1 ~ Beta(1, 1) およびX 2 ~ Beta(3, 3); D KL ( X 1 || X 2 ) = 0.598803; D KL ( X 2 || X 1 ) = 0.267864; h ( X 1 ) = 0; h ( X 2 ) = −0.267864X 1 ~ Beta(3, 0.5) およびX 2 ~ Beta(0.5, 3); D KL ( X 1 || X 2 ) = 7.21574; D KL ( X 2 || X 1 ) = 7.21574; h ( X 1 ) = −1.10805; h ( X 2 ) = −1.10805。カルバック・ライブラー情報 とは、個々のベータ分布Beta(1, 1)とBeta(3, 3)が対称だがエントロピーh(X 1)≠h(X 2)が異なる場合、D KL ( X 1 || X 2 )≠D KL (X 2 || X 1 )で対称ではない情報です。カルバック情報の大きさは、高い(微分)エントロピーから低い(微分)エントロピーへ向かうか、それともその 逆 かによって 変わり ます。上記の 数値 例で は 、カルバック 情報と は 、分布 が( 一 様 ) Beta(1, 1)ではなく(ベル型の)Beta(3, 3)であると仮定することの非効率性の大きさを表しています。 Beta(1, 1)の「h」エントロピーはBeta(3, 3)の「h」エントロピーよりも高い。これは、一様分布Beta(1, 1)が最大の無秩序性を持つためである。カルバック・ダイバージェンスは、エントロピーが減少する方向、つまり(一様)Beta(1, 1)分布が(ベル型)Beta(3, 3)分布であると仮定する方向(逆の場合ではない)で測定した場合、2倍以上(0.267864ではなく0.598803)となる。この限定された意味では、カルバック・ダイバージェンスは熱力学第二法則 と整合する。
カルバック・ライブラー情報量 は、等しい微分エントロピー h(X1)=h ( X2 )を 持つ歪ん だケースBeta( 3,0.5 )とBeta(0.5,3)に対して対称D KL ( X1 || X2 ) = D KL ( X2 || X1 ) です。
対称条件:
D K L ( X 1 ∥ X 2 ) = D K L ( X 2 ∥ X 1 ) , if h ( X 1 ) = h ( X 2 ) , for (skewed) α ≠ β {\displaystyle D_{\mathrm {KL} }(X_{1}\parallel X_{2})=D_{\mathrm {KL} }(X_{2}\parallel X_{1}),{\text{ if }}h(X_{1})=h(X_{2}),{\text{ for (skewed) }}\alpha \neq \beta }
上記の定義と、ベータ分布が持つ 鏡面対称性f ( x ; α , β ) = f (1 − x ; α , β ) から導かれます
統計的指標間の関係
1 < α < β の場合、最頻値 ≤ 中央値 ≤ 平均値となる。[ 10 ] 最頻値(α 、β > 1の場合のみ)と平均値をα とβ で表すと次のようになる。
α − 1 α + β − 2 ≤ median ≤ α α + β , {\displaystyle {\frac {\alpha -1}{\alpha +\beta -2}}\leq {\text{median}}\leq {\frac {\alpha }{\alpha +\beta }},}
1 < β < α の場合、不等式の順序は逆になります。α 、β > 1 の場合 、 平均値と中央値の絶対距離は、x の最大値と最小値の距離の 5% 未満です。一方、α = 1 およびβ = 1 という(病的な )ケースでは、平均値と最頻値の絶対距離はx の最大値と最小値の距離の 50% に達する可能性があり、この値ではベータ分布は一様分布に近づき、微分エントロピーは 最大 値に近づき、したがって「無秩序」は最大になります。
たとえば、α = 1.0001、β = 1.00000001の場合:
モード = 0.9999; PDF(モード) = 1.00010 平均 = 0.500025; PDF(平均) = 1.00003 中央値 = 0.500035; PDF(中央値) = 1.00003 平均 − 最頻値 = −0.499875 平均値 − 中央値 = −9.65538 × 10 −6 ここで、PDF は確率密度関数 の値を表します。
平均、幾何平均、調和平均の関係:0 < α = β < 5のベータ分布の平均、中央値、幾何平均、調和平均算術平均と幾何平均の不等式 から、幾何平均は平均値よりも低いことがわかります。同様に、調和平均は幾何平均よりも低くなります。添付のグラフは、 α = β の場合、α = β の値に関わらず、平均値と中央値はどちらも1/2に等しく、最頻値もα = β > 1 の場合に1/2に等しいことを示しています。しかし、幾何 平均と調和平均は1/2より も低く、α = β → ∞の 方向 に漸近的にのみこの値に近づきます。
歪度の2乗で囲まれた尖度 ベータ分布のα およびβ パラメータと過剰尖度および二乗歪度 フェラー [ 5 ] が指摘したように、ピアソンシステム ではベータ確率密度はタイプ I として表示されます(ベータ分布とピアソンのタイプ I 分布の違いは表面的なものに過ぎず、尖度と歪度の関係に関する以下の議論には影響しません)。カール・ピアソン は、1916 年に発表された論文[ 21 ] の図 1 で、縦軸 (縦座標 )に尖度 、横軸 (横座標) に 歪度 の 2 乗 をとったグラフを示し、その中でいくつかの分布が表示されました。[ 31 ] ベータ分布が占める領域は、 (歪度2 、尖度)平面 、または (歪度2 、過剰尖度)平面で次の 2 つの 線 によって囲まれます。
( skewness ) 2 + 1 < kurtosis < 3 2 ( skewness ) 2 + 3 {\displaystyle ({\text{skewness}})^{2}+1<{\text{kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}+3}
あるいは、同等に、
( skewness ) 2 − 2 < excess kurtosis < 3 2 ( skewness ) 2 {\displaystyle ({\text{skewness}})^{2}-2<{\text{excess kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}}
強力なデジタルコンピュータが存在しなかった時代に、カール・ピアソンは 更なる境界を正確に計算し、[ 32 ] [ 21 ] 、例えば「U字型」分布と「J字型」分布を分離しました。下限境界線(過剰尖度 + 2 − 歪度2 = 0)は、形状パラメータ α とβ の両方の値がゼロに近い、歪んだ「U字型」ベータ分布によって生成されます。上限境界線(過剰尖度 − (3/2) 歪度2 = 0)は、パラメータの1つが非常に大きく、もう1つのパラメータが非常に小さい、極端に歪んだ分布によって生成されます。 カール・ピアソンは [ 21 ]、 この上限のライン(過剰尖度 − (3/2)歪度2 = 0)はピアソン分布 III との交点でもあることを示し、ピアソン分布 III は一方向(正の無限大に向かって)に無制限のサポートを持ち、ベル型または J 型になる可能性があると示しました。彼の息子であるエゴン・ピアソンは [ 31 ] 、ベータ分布(ピアソン分布 I と同等)がこの境界(過剰尖度 − (3/2)歪度2 = 0)に近づくにつれて、(尖度/歪度 2 乗平面内で)が占める領域は、非心カイ 2 乗分布 と共有されることを示しました。カール・ピアソン[ 33 ] (Pearson 1895、pp. 357、360、373–376)は、ガンマ分布 がピアソン III 型分布であることも示しました。したがって、ピアソンのタイプIII分布のこの境界線はガンマ線として知られています。(これは、ガンマ分布の過剰尖度が6/ k であり、歪度の2乗が4/ k であるという事実から示されます。したがって、ガンマ分布はパラメータ「k」の値に関わらず、(過剰尖度−(3/2)歪度2 = 0)が常に満たされます)。ピアソンは後に、カイ2乗分布はピアソンのタイプIIIの特別なケースであり、この境界線を共有すると指摘しました( カイ2乗分布 の過剰尖度が12/ k であり、歪度の2乗が8/ k であるという事実から明らかです。したがって、(過剰尖度−(3/2)歪度2 = 0)がパラメータ「k」の値に関わらず常に満たされます)。これは、カイ2乗分布X ~ χ 2 ( k ) はガンマ分布の特殊なケースであり、パラメータ化 X ~ Γ(k/2, 1/2) を持ちます。ここで、k はカイ 2 乗分布の「自由度の数」を指定する正の整数です。
上限付近のベータ分布の例(過剰尖度 − (3/2) 歪度2 = 0)は、α = 0.1、β = 1000 で与えられ、この場合、比 (過剰尖度)/(歪度2 ) = 1.49835 は、下から上限の 1.5 に近づきます。下限付近のベータ分布の例(過剰尖度 + 2 − 歪度2 = 0)は、α = 0.0001、β = 0.1 で与えられ、この場合、式 (過剰尖度 + 2)/(歪度2 ) = 1.01621 は、上から下限の 1 に近づきます。α と β の両方が対称的に 0 に近づく極小限界では、過剰尖度は -2 で最小値に達します。この最小値は、下側の境界線が垂直軸(縦軸 )と交差する点で発生します。(ただし、ピアソンの元のチャートでは、縦軸は過剰尖度ではなく尖度であり、上方向ではなく下方向に向かって増加します)。
歪度と過剰尖度の値が下限値(過剰尖度 + 2 − 歪度2 = 0)を下回る分布は発生しないため、カール・ピアソンは この境界より下の領域を「不可能領域」と適切に呼びました。この「不可能領域」の境界は、パラメータα とβ が ゼロに近づく(対称または歪んだ)双峰性 U 字型分布によって決定され、したがってすべての確率密度が両端x = 0、1 に集中し、その間にはほとんど何も存在しません。α ≈ β ≈ 0 の場合、確率密度は両端 x = 0 と x = 1 に集中するため、 この 「不可能境界 」は ベルヌーイ分布 によって決定され、この分布では、2 つの唯一の可能な結果が、それぞれ確率p とq = 1 − p で発生します。この限界境界に対称性α = β で近づく場合、歪度 ≈ 0、過剰尖度 ≈ −2(これはあらゆる分布で起こり得る最小の過剰尖度)、確率はp ≈ q ≈ 1/2 となる。この限界境界に歪度で近づく場合、過剰尖度 ≈ −2 + 歪度2 となり、確率密度は一方の端に他方の端よりも集中し(中間の領域はほとんどない)、左端の確率はx = 0、右端の確率はx = 1 となる。 p = β α + β {\displaystyle p={\tfrac {\beta }{\alpha +\beta }}} q = 1 − p = α α + β {\displaystyle q=1-p={\tfrac {\alpha }{\alpha +\beta }}}
対称性 すべての記述はα 、β >0 を条件としています
確率密度関数の 反射対称性 f ( x ; α , β ) = f ( 1 − x ; β , α ) {\displaystyle f(x;\alpha ,\beta )=f(1-x;\beta ,\alpha )} 累積分布関数の 反射対称性 とユニタリー並進 F ( x ; α , β ) = I x ( α , β ) = 1 − F ( 1 − x ; β , α ) = 1 − I 1 − x ( β , α ) {\displaystyle F(x;\alpha ,\beta )=I_{x}(\alpha ,\beta )=1-F(1-x;\beta ,\alpha )=1-I_{1-x}(\beta ,\alpha )} モード 反射対称性 とユニタリー並進 mode ( B ( α , β ) ) = 1 − mode ( B ( β , α ) ) , if B ( β , α ) ≠ B ( 1 , 1 ) {\displaystyle \operatorname {mode} (\mathrm {B} (\alpha ,\beta ))=1-\operatorname {mode} (\mathrm {B} (\beta ,\alpha )),{\text{ if }}\mathrm {B} (\beta ,\alpha )\neq \mathrm {B} (1,1)} 中線 反射対称性 とユニタリー並進 median ( B ( α , β ) ) = 1 − median ( B ( β , α ) ) {\displaystyle \operatorname {median} (\mathrm {B} (\alpha ,\beta ))=1-\operatorname {median} (\mathrm {B} (\beta ,\alpha ))} 平均 反射対称性 とユニタリー並進 μ ( B ( α , β ) ) = 1 − μ ( B ( β , α ) ) {\displaystyle \mu (\mathrm {B} (\alpha ,\beta ))=1-\mu (\mathrm {B} (\beta ,\alpha ))} 幾何平均はそれぞれ個別には非対称であるが、 X に基づく幾何平均とその反射 1− X に基づく幾何平均の間には次の対称性が適用される。G X ( B ( α , β ) ) = G 1 − X ( B ( β , α ) ) {\displaystyle G_{X}(\mathrm {B} (\alpha ,\beta ))=G_{1-X}(\mathrm {B} (\beta ,\alpha ))} 調和平均はそれぞれ個別には非対称であるが、 X に基づく調和平均とその反射 1− X に基づく調和平均の間には次の対称性が適用される。H X ( B ( α , β ) ) = H 1 − X ( B ( β , α ) ) if α , β > 1. {\displaystyle H_{X}(\mathrm {B} (\alpha ,\beta ))=H_{1-X}(\mathrm {B} (\beta ,\alpha )){\text{ if }}\alpha ,\beta >1.} 分散 対称性var ( B ( α , β ) ) = var ( B ( β , α ) ) {\displaystyle \operatorname {var} (\mathrm {B} (\alpha ,\beta ))=\operatorname {var} (\mathrm {B} (\beta ,\alpha ))} 幾何分散はそれぞれ個別には非対称であるが、Xに基づく対数幾何分散とその 反射 1− X に基づく対数幾何分散の間には次の対称性が当てはまる。ln ( var G X ( B ( α , β ) ) ) = ln ( var G ( 1 − X ) ( B ( β , α ) ) ) {\displaystyle \ln(\operatorname {var} _{GX}(\mathrm {B} (\alpha ,\beta )))=\ln(\operatorname {var} _{G(1-X)}(\mathrm {B} (\beta ,\alpha )))} 幾何学的共分散 対称性ln cov G X , ( 1 − X ) ( B ( α , β ) ) = ln cov G X , ( 1 − X ) ( B ( β , α ) ) {\displaystyle \ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\beta ,\alpha ))} 平均 対称性の周りの平均 絶対偏差 E [ | X − E [ X ] | ] ( B ( α , β ) ) = E [ | X − E [ X ] | ] ( B ( β , α ) ) {\displaystyle \operatorname {E} [|X-E[X]|](\mathrm {B} (\alpha ,\beta ))=\operatorname {E} [|X-E[X]|](\mathrm {B} (\beta ,\alpha ))} 歪度 歪対称性 skewness ( B ( α , β ) ) = − skewness ( B ( β , α ) ) {\displaystyle \operatorname {skewness} (\mathrm {B} (\alpha ,\beta ))=-\operatorname {skewness} (\mathrm {B} (\beta ,\alpha ))} 過剰尖度 対称性excess kurtosis ( B ( α , β ) ) = excess kurtosis ( B ( β , α ) ) {\displaystyle {\text{excess kurtosis}}(\mathrm {B} (\alpha ,\beta ))={\text{excess kurtosis}}(\mathrm {B} (\beta ,\alpha ))} 実部 の特性関数の対称性(変数「 t 」の原点に関して)Re [ 1 F 1 ( α ; α + β ; i t ) ] = Re [ 1 F 1 ( α ; α + β ; − i t ) ] {\displaystyle {\text{Re}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]={\text{Re}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]} 虚数部 の特性関数の 歪対称性(変数「 t 」の原点に関して)Im [ 1 F 1 ( α ; α + β ; i t ) ] = − Im [ 1 F 1 ( α ; α + β ; − i t ) ] {\displaystyle {\text{Im}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]=-{\text{Im}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]} 絶対値 の特性関数の対称性(変数「 t 」の原点に関して)Abs [ 1 F 1 ( α ; α + β ; i t ) ] = Abs [ 1 F 1 ( α ; α + β ; − i t ) ] {\displaystyle {\text{Abs}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]={\text{Abs}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]} 微分エントロピー 対称性h ( B ( α , β ) ) = h ( B ( β , α ) ) {\displaystyle h(\mathrm {B} (\alpha ,\beta ))=h(\mathrm {B} (\beta ,\alpha ))} 相対エントロピー(カルバック・ライブラー情報 とも呼ばれる) 対称性D K L ( X 1 ∥ X 2 ) = D K L ( X 2 ∥ X 1 ) , if h ( X 1 ) = h ( X 2 ) , for (skewed) α ≠ β {\displaystyle D_{\mathrm {KL} }(X_{1}\parallel X_{2})=D_{\mathrm {KL} }(X_{2}\parallel X_{1}),{\text{ if }}h(X_{1})=h(X_{2}){\text{, for (skewed) }}\alpha \neq \beta } フィッシャー情報行列 対称性I i , j = I j , i {\displaystyle {\mathcal {I}}_{i,j}={\mathcal {I}}_{j,i}}
確率密度関数の幾何学
変曲点 変曲点の位置とαおよびβの関係。変曲点が1つある領域を示しています 変曲点の位置とαおよびβの関係。2つの変曲点がある領域を示す。 形状パラメータαとβの特定の値に対して、確率密度関数は 変曲点 を持ち、そこで曲率 が符号を変える。これらの変曲点の位置は、分布の 分散または広がりの尺度として有用である。
次の量を定義します。
κ = ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle \kappa ={\frac {\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}{\alpha +\beta -2}}}
変曲点は、形状パラメータα とβ の値に応じて次のように 発生します[ 1 ] [ 8 ] [ 9 ] [ 20 ] 。
(α >2、β >2)分布はベル型(α =β の場合は対称、それ以外は歪んでいる)で、モードから等距離に2つの変曲点がある。 x = mode ± κ = α − 1 ± ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle x={\text{mode}}\pm \kappa ={\frac {\alpha -1\pm {\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}}
(α = 2、β > 2)分布は単峰性で、正に歪んでおり、右側に裾があり、1つの変曲点 が最頻値の右側に位置します。 x = mode + κ = 2 β {\displaystyle x={\text{mode}}+\kappa ={\frac {2}{\beta }}}
(α >2、β=2)分布は単峰性で、負に歪んでおり、左側に分布し、最頻値の左側に1つの変曲点があります。 x = mode − κ = 1 − 2 α {\displaystyle x={\text{mode}}-\kappa =1-{\frac {2}{\alpha }}}
(1 < α < 2, β > 2, α + β > 2) この分布は単峰性で、正に歪んでおり、右側に分布し、1つの変曲点 が最頻値の右側に位置します。 x = mode + κ = α − 1 + ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle x={\text{mode}}+\kappa ={\frac {\alpha -1+{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}}
(0 < α < 1, 1 < β < 2) この分布は左端x = 0 に最頻値を持ち、正の右裾分布となる。最頻値の右側に変曲点が1つ存在する。 x = α − 1 + ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle x={\frac {\alpha -1+{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}}
(α >2、1<β <2)分布は、負に歪んだ単峰性の左側分布であり、最頻値の左側に1つの変曲点がある。 x = mode − κ = α − 1 − ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle x={\text{mode}}-\kappa ={\frac {\alpha -1-{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}}
(1 < α < 2, 0 < β < 1) この分布は右端x = 1 に最頻値を持ち、負の左裾分布となる。最頻値の左側に変曲点が1つ存在する。 x = α − 1 − ( α − 1 ) ( β − 1 ) α + β − 3 α + β − 2 {\displaystyle x={\frac {\alpha -1-{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}}
残りの(対称および歪んだ)領域には変曲点はありません:U字型:(α 、β <1)、逆U字型:(1< α <2、1< β <2)、逆J字型(α <1、β >2)、またはJ字型:(α >2、β <1)
添付のグラフは、変曲点の位置(縦軸は0から1まで)とα およびβ (横軸は0から5まで)の関係を示しています。α = 1、β = 1、α = 2、β = 2の線と交差する面には大きな切れ目が見られます 。 これは、これらの値においてベータ分布が2モードから1モード、そして無モードへと変化するためです。
図形 対称ベータ分布のx およびα = β に対する0から30までのPDF 対称ベータ分布の x およびα = β に対する0 から 2 までのPDF 歪んだベータ分布のx とβ = 2.5 α に対する0から9までのPDF 歪んだベータ分布のxとβ = 5.5 α に対する0から9までのPDF 歪んだベータ分布のxとβ = 8αに対する 0から10までのPDF ベータ密度関数は、2つのパラメータα とβ の値に応じて、多種多様な形状をとることができます。ベータ分布が(わずか2つのパラメータを用いて)このように多様な形状をとることができるという特性は、実測値のモデル化に広く応用されている理由の一つです。
対称(α = β )密度関数は1/2 を中心に対称 です(青と青緑のプロット)。 中央値 = 平均 = 1/2。 歪度 = 0。 分散 = 1/(4(2 α + 1)) α = β < 1U字型(青いプロット) 双峰性:左モード = 0、右モード = 1、反モード = 1/2 1/12 < var( X ) < 1/4 [ 1 ] −2 < 過剰尖度( X ) < −6/5 α = β = 1/2は逆正弦分布である var( X ) = 1/8 過剰尖度( X ) = −3/2 CF = リンク (t) [ 34 ] α = β → 0 は、 ディラックのデルタ関数の 両端x = 0 とx = 1で確率 1/2 が等しく、それ以外の場合は確率がゼロとなる2 点ベルヌーイ分布 です。コインを投げる場合、片方の面はx = 0、もう片方の面はx = 1 となります。 lim α = β → 0 var ( X ) = 1 4 {\displaystyle \lim _{\alpha =\beta \to 0}\operatorname {var} (X)={\tfrac {1}{4}}} lim α = β → 0 e x c e s s k u r t o s i s ( X ) = − 2 {\displaystyle \lim _{\alpha =\beta \to 0}\operatorname {excess\ kurtosis} (X)=-2} これより低い値に到達することは、どの分布でも不可能です。微分エントロピーは 最小 値−∞に近づく α = β = 1 α = β > 1対称単峰性 モード = 1/2 0 < var( X ) < 1/12 [ 1 ] −6/5 < 過剰尖度( X ) < 0 α = β = 3/2は半楕円分布[0, 1]である。ウィグナー半円分布 [ 35 ]を参照。 var( X ) = 1/16です。 過剰尖度( X ) = −1 CF = 2 ジンク (t) α = β = 2は放物線[0, 1]分布である。 var( X ) = 1/20 過剰尖度( X ) = −6/7 CF = 3 Tinc (t) [ 36 ] α = β > 2 はベル型で、変曲点は モードの両側に位置する。 0 < 変数( X ) < 1/20 −6/7 < 過剰尖度( X ) < 0 α = β → ∞ は、 ディラックのデルタ関数の スパイクが中点x = 1/2 で確率 1 で出現し、それ以外の場所では確率 0 となる1 点退化分布です 。x = 1/2という一点に 100% の確率(絶対確実性)が集中しています。 lim α = β → ∞ var ( X ) = 0 {\displaystyle \lim _{\alpha =\beta \to \infty }\operatorname {var} (X)=0} lim α = β → ∞ e x c e s s k u r t o s i s ( X ) = 0 {\displaystyle \lim _{\alpha =\beta \to \infty }\operatorname {excess\ kurtosis} (X)=0} 微分エントロピーは 最小 値−∞に近づく
歪んでいる(α ≠ β )密度関数は歪んで います。パラメータ値を交換すると、初期曲線の鏡像 (反転)が得られます。より具体的な例をいくつか挙げます。
α < 1、β < 1U字型 α < β の場合は正の歪み、 α > β の場合は負の歪み二峰性:左モード = 0、右モード = 1、反モード =α − 1 α + β − 2 {\displaystyle {\tfrac {\alpha -1}{\alpha +\beta -2}}} 0 < 中央値 < 1。 0 < 変数( X ) < 1/4 α > 1、β > 1単峰性 (マゼンタとシアンのプロット)、α < β の場合は正の歪み、 α > β の場合は負の歪みmode = α − 1 α + β − 2 {\displaystyle {\text{mode}}={\tfrac {\alpha -1}{\alpha +\beta -2}}} 0 < 中央値 < 1 0 < 変数( X ) < 1/12 α < 1、β ≥ 1逆J字型で右尾部を持つ。 正に歪んだ 厳密に減少する凸型 最頻値 = 0 0 < 中央値 < 1/2。 0 < var ( X ) < − 11 + 5 5 2 , {\displaystyle 0<\operatorname {var} (X)<{\tfrac {-11+5{\sqrt {5}}}{2}},} (最大分散は、またはα = Φ の 黄金比共役 で発生します)α = − 1 + 5 2 , β = 1 {\displaystyle \alpha ={\tfrac {-1+{\sqrt {5}}}{2}},\beta =1} α ≥ 1、β < 1左尻尾のJ字型、 負に歪んだ 厳密に増加、凸 最頻値 = 1 1/2 < 中央値 < 1 0 < var ( X ) < − 11 + 5 5 2 , {\displaystyle 0<\operatorname {var} (X)<{\tfrac {-11+5{\sqrt {5}}}{2}},} (最大分散は、またはβ = Φ の 黄金比共役 で発生します)α = 1 , β = − 1 + 5 2 {\displaystyle \alpha =1,\beta ={\tfrac {-1+{\sqrt {5}}}{2}}} α = 1, β > 1正に歪んだ 厳密に減少する(赤いプロット)、 反転した(鏡像の)べき乗関数分布 平均 = 1 / ( β + 1 ) 中央値 = 1 - 1/2 1/ β 最頻値 = 0 α = 1, 1 < β < 2 凹面 1 − 1 2 < median < 1 2 {\displaystyle 1-{\tfrac {1}{\sqrt {2}}}<{\text{median}}<{\tfrac {1}{2}}} 1/18 < var( X ) < 1/12 α = 1、β = 2 傾きが-2の直線、左端が直角の直角三角分布( x = 0) median = 1 − 1 2 {\displaystyle {\text{median}}=1-{\tfrac {1}{\sqrt {2}}}} var( X ) = 1/18 α = 1, β > 2 逆J字型で右尾部を持つ。 凸 0 < median < 1 − 1 2 {\displaystyle 0<{\text{median}}<1-{\tfrac {1}{\sqrt {2}}}} 0 < var( X ) < 1/18 α > 1, β = 1 負に歪んだ 厳密に増加(緑のプロット)、 べき乗関数分布[ 9 ] 平均 = α / (α + 1) 中央値 = 1/2 1/α 最頻値 = 1 2 > α > 1、β = 1 凹面 1 2 < median < 1 2 {\displaystyle {\tfrac {1}{2}}<{\text{median}}<{\tfrac {1}{\sqrt {2}}}} 1/18 < 変数( X ) < 1/12 α = 2、β = 1 傾き+2の直線、右端が直角の直角三角分布( x = 1) median = 1 2 {\displaystyle {\text{median}}={\tfrac {1}{\sqrt {2}}}} var( X ) = 1/18 α > 2、β = 1 J字型で、左端が凸型 1 2 < median < 1 {\displaystyle {\tfrac {1}{\sqrt {2}}}<{\text{median}}<1} 0 < var( X ) < 1/18
X ~ Beta( α , β )ならば1 − X ~ Beta( β , α )は鏡像 対称性を持つX ~ Beta( α , β )の場合、 。ベータプライム分布は 「第2種ベータ分布」とも呼ばれます。X 1 − X ∼ β ′ ( α , β ) {\displaystyle {\tfrac {X}{1-X}}\sim {\beta '}(\alpha ,\beta )} の場合、 は一般化ロジスティック分布 を 持ち、密度 となります。ここで、はロジスティック シグモイド です。X ∼ Beta ( α , β ) {\displaystyle X\sim {\text{Beta}}(\alpha ,\beta )} Y = log X 1 − X {\displaystyle Y=\log {\frac {X}{1-X}}} σ ( y ) α σ ( − y ) β B ( α , β ) {\displaystyle {\frac {\sigma (y)^{\alpha }\sigma (-y)^{\beta }}{B(\alpha ,\beta )}}} σ {\displaystyle \sigma } X ~ Beta( α , β )ならば.1 X − 1 ∼ β ′ ( β , α ) {\displaystyle {\tfrac {1}{X}}-1\sim {\beta '}(\beta ,\alpha )} およびのとき、 の密度が および の密度であるとき、は超幾何関数 である。[ 37 ] X ∼ Beta ( α 1 , β 1 ) {\displaystyle X\sim {\text{Beta}}(\alpha _{1},\beta _{1})} Y ∼ Beta ( α 2 , β 2 ) {\displaystyle Y\sim {\text{Beta}}(\alpha _{2},\beta _{2})} Z = X Y {\displaystyle Z={\tfrac {X}{Y}}} B ( α 1 + α 2 , β 2 ) z α 1 − 1 2 F 1 ( α 1 + α 2 , 1 − β 1 ; α 1 + α 2 + β 2 ; z ) B ( α 1 , β 1 ) B ( α 2 , β 2 ) {\displaystyle {\tfrac {B(\alpha _{1}+\alpha _{2},\beta _{2})z^{\alpha _{1}-1}{}_{2}F_{1}(\alpha _{1}+\alpha _{2},1-\beta _{1};\alpha _{1}+\alpha _{2}+\beta _{2};z)}{B(\alpha _{1},\beta _{1})B(\alpha _{2},\beta _{2})}}} 0 < z ≤ 1 {\displaystyle 0<z\leq 1} B ( α 1 + α 2 , β 1 ) z − ( α 2 + 1 ) 2 F 1 ( α 1 + α 2 , 1 − β 2 ; α 1 + α 2 + β 1 ; 1 z ) B ( α 1 , β 1 ) B ( α 2 , β 2 ) {\displaystyle {\tfrac {B(\alpha _{1}+\alpha _{2},\beta _{1})z^{-(\alpha _{2}+1)}{}_{2}F_{1}(\alpha _{1}+\alpha _{2},1-\beta _{2};\alpha _{1}+\alpha _{2}+\beta _{1};{\tfrac {1}{z}})}{B(\alpha _{1},\beta _{1})B(\alpha _{2},\beta _{2})}}} z ≥ 1 {\displaystyle z\geq 1} 2 F 1 ( a , b ; c ; x ) {\displaystyle {}_{2}F_{1}(a,b;c;x)} X ~ Beta( n /2, m /2)の場合、( n > 0およびm > 0と仮定)、Fisher–Snedecor F分布が 適用されます。m X n ( 1 − X ) ∼ F ( n , m ) {\displaystyle {\tfrac {mX}{n(1-X)}}\sim F(n,m)} するとmin + X (max − min) ~ PERT(min, max, m , λ )となり、ここでPERTは PERT 分析で使用されるPERT分布 を示し、m は最も可能性の高い値です。[ 38 ] 伝統的に[ 39 ] PERT分析ではλ = 4です。 X ∼ Beta ( 1 + λ m − min max − min , 1 + λ max − m max − min ) {\displaystyle X\sim \operatorname {Beta} \left(1+\lambda {\tfrac {m-\min }{\max -\min }},1+\lambda {\tfrac {\max -m}{\max -\min }}\right)} X ~ Beta(1, β )ならば、 X ~ Kumaraswamy 分布 (パラメータ (1, β ))X ~ Beta( α , 1)ならば、 X ~ Kumaraswamy 分布 (パラメータは ( α , 1))X ~ Beta( α , 1)ならば−ln( X ) ~ Exponential( α )
特殊なケースと限定的なケース 0から始まる1次元のランダムウォークの8つの実現例:原点への最後の訪問の時間の確率はBeta(1/2, 1/2)として分布する ベータ(1/2, 1/2):逆正弦分布 確率密度は、ベイズ推論 におけるベルヌーイ 分布または二項分布 の不確実性を表すためにハロルド・ジェフリーズによって提案され、現在では ジェフリーズの事前 分布: p −1/2 (1 − p ) −1/2 と呼ばれることが多い。この分布は、いくつかのランダムウォークの 基本定理にも現れる。 その区間の密度は1で、Beta(1, 1) ~ U(0, 1)となる。 Beta(n, 1) ~ U(0, 1)を持つ n 個の 独立した逆関数の最大値。この区間で密度がn x n –1である 標準べき関数分布 と呼ばれることもあります。 Beta(1, n) ~その区間で密度がn (1 − x ) n −1である U(0, 1)を持つ n個 の独立した逆関数の最小値。 X ~ Beta(3/2, 3/2)かつr > 0のとき、2 rX − r ~ ウィグナー半円分布となります 。Beta(1/2, 1/2) は逆正弦分布 と等価です。この分布は、ベルヌーイ 分布と 二項分布の ジェフリーズ事前 確率でもあります。lim n → ∞ n Beta ( 1 , n ) = Exponential ( 1 ) {\displaystyle \lim _{n\to \infty }n\operatorname {Beta} (1,n)=\operatorname {Exponential} (1)} 指数分布 。lim n → ∞ n Beta ( k , n ) = Gamma ( k , 1 ) {\displaystyle \lim _{n\to \infty }n\operatorname {Beta} (k,n)=\operatorname {Gamma} (k,1)} ガンマ分布 。が大きい場合、正規分布 となります。より正確に言うと、 の場合、n が 増加するにつれて、は平均 0、分散 の正規分布に収束します。n {\displaystyle n} Beta ( α n , β n ) → N ( α α + β , α β ( α + β ) 3 1 n ) {\displaystyle \operatorname {Beta} (\alpha n,\beta n)\to {\mathcal {N}}\left({\frac {\alpha }{\alpha +\beta }},{\frac {\alpha \beta }{(\alpha +\beta )^{3}}}{\frac {1}{n}}\right)} X n ∼ Beta ( α n , β n ) {\displaystyle X_{n}\sim \operatorname {Beta} (\alpha n,\beta n)} n ( X n − α α + β ) {\displaystyle {\sqrt {n}}\left(X_{n}-{\tfrac {\alpha }{\alpha +\beta }}\right)} α β ( α + β ) 3 {\displaystyle {\tfrac {\alpha \beta }{(\alpha +\beta )^{3}}}}
他の分布から派生 一様分布 から得られたn 個のサンプルのk 番目の順序統計量 はベータランダム変数U ( k ) ~Beta( k , n +1− k )である。[ 40 ] ガンマ分布 : X ~ Gamma(α, θ) とY ~ Gamma(β, θ) が独立している場合、 です。X X + Y ∼ Beta ( α , β ) {\displaystyle {\tfrac {X}{X+Y}}\sim \operatorname {Beta} (\alpha ,\beta )\,} カイ二乗分布 :と が独立であれば、 となります。X ∼ χ 2 ( α ) {\displaystyle X\sim \chi ^{2}(\alpha )\,} Y ∼ χ 2 ( β ) {\displaystyle Y\sim \chi ^{2}(\beta )\,} X X + Y ∼ Beta ( α 2 , β 2 ) {\displaystyle {\tfrac {X}{X+Y}}\sim \operatorname {Beta} ({\tfrac {\alpha }{2}},{\tfrac {\beta }{2}})} 一様分布のべき変換:X ~ U(0, 1)かつα>0ならばX 1 / α ~ Beta ( α , 1 ) となる。 コーシー分布 :X ~ コーシー(0, 1)ならば1 1 + X 2 ∼ Beta ( 1 2 , 1 2 ) {\displaystyle {\tfrac {1}{1+X^{2}}}\sim \operatorname {Beta} \left({\tfrac {1}{2}},{\tfrac {1}{2}}\right)\,}
他のディストリビューションとの組み合わせ X ~ Beta( α , β )かつY ~ F(2 β ,2 α )ならば すべてのx > 0に対して成り立ちます。Pr ( X ≤ α α + β x ) = Pr ( Y ≥ x ) {\displaystyle \Pr(X\leq {\tfrac {\alpha }{\alpha +\beta x}})=\Pr(Y\geq x)\,}
他の分配との複合 p ~ Beta(α, β)かつX ~ Bin( k , p )ならばX ~ ベータ二項分布 p ~ Beta(α, β)かつX ~ NB( r , p )ならばX ~ beta負の二項分布
一般化 多変数への一般化、すなわち多変量ベータ分布は、 ディリクレ分布 と呼ばれます。ディリクレ分布の単変量周辺分布はベータ分布を持ちます。ディリクレ分布が多項式分布 およびカテゴリ分布と 共役である のと全く同じように、ベータ分布は二項分布およびベルヌーイ分布と共役 です ピアソンタイプ I 分布は 、ベータ分布と同一です (ベータ分布の 4 つのパラメータによるパラメータ化でも実行できる任意のシフトと再スケーリングを除く)。 ベータ分布は、次の条件を満たす非心ベータ分布の特殊なケースです 。λ = 0 {\displaystyle \lambda =0} Beta ( α , β ) = NonCentralBeta ( α , β , 0 ) {\displaystyle \operatorname {Beta} (\alpha ,\beta )=\operatorname {NonCentralBeta} (\alpha ,\beta ,0)} 一般化ベータ分布は 、ベータ分布を特殊なケースとして持つ 5 つのパラメータの分布ファミリです。 行列変量ベータ分布は、 正定値行列 の分布です。
統計的推論
パラメータ推定
モーメント法
2つの未知パラメータ 2つの未知のパラメータ( [0,1]区間でサポートされるベータ分布の)は、モーメント法を用いて推定できます。最初の2つのモーメント(標本平均と標本分散)は次のように表されます。 ( α ^ , β ^ ) {\displaystyle ({\hat {\alpha }},{\hat {\beta }})}
sample mean(X) = x ¯ = 1 N ∑ i = 1 N X i {\displaystyle {\text{sample mean(X)}}={\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}}
標本平均 推定値で あり、
sample variance(X) = v ¯ = 1 N − 1 ∑ i = 1 N ( X i − x ¯ ) 2 {\displaystyle {\text{sample variance(X)}}={\bar {v}}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(X_{i}-{\bar {x}}\right)^{2}}
標本分散 推定値とする。モーメント法 によるパラメータ推定値は
α ^ = x ¯ ( x ¯ ( 1 − x ¯ ) v ¯ − 1 ) if v ¯ < x ¯ ( 1 − x ¯ ) , {\displaystyle {\hat {\alpha }}={\bar {x}}\left({\frac {{\bar {x}}(1-{\bar {x}})}{\bar {v}}}-1\right)\ {\text{if}}\ {\bar {v}}<{\bar {x}}(1-{\bar {x}}),} β ^ = ( 1 − x ¯ ) ( x ¯ ( 1 − x ¯ ) v ¯ − 1 ) if v ¯ < x ¯ ( 1 − x ¯ ) . {\displaystyle {\hat {\beta }}=(1-{\bar {x}})\left({\frac {{\bar {x}}(1-{\bar {x}})}{\bar {v}}}-1\right)\ {\text{if}}\ {\bar {v}}<{\bar {x}}(1-{\bar {x}}).}
分布がランダム変数X で[0, 1]以外の既知の区間、例えばランダム変数Y で[ a , c ]で必要な場合は、上記の形状パラメータの2つの式でをとを置き換えます(以下の「4つの未知のパラメータ」のセクションを参照)。[ 41 ] ここで、 x ¯ {\displaystyle {\bar {x}}} y ¯ − a c − a , {\displaystyle {\frac {{\bar {y}}-a}{c-a}},} v ¯ {\displaystyle {\bar {v}}} v Y ¯ ( c − a ) 2 {\displaystyle {\frac {\bar {v_{Y}}}{(c-a)^{2}}}}
sample mean(Y) = y ¯ = 1 N ∑ i = 1 N Y i {\displaystyle {\text{sample mean(Y)}}={\bar {y}}={\frac {1}{N}}\sum _{i=1}^{N}Y_{i}} sample variance(Y) = v ¯ Y = 1 N − 1 ∑ i = 1 N ( Y i − y ¯ ) 2 {\displaystyle {\text{sample variance(Y)}}={\bar {v}}_{Y}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(Y_{i}-{\bar {y}}\right)^{2}}
4つの未知のパラメータ パラメータ推定値と(標本)過剰尖度および(標本)二乗歪度ベータ分布の解 カール・ピアソン が開発したモーメント法を用いて、最初の4つの中心モーメント(平均、分散、歪度、過剰尖度)の標本値と母集団値を等しくすることで、([ a 、c ]区間でサポートされるベータ分布の4つのパラメータについては、 「代替パラメータ化、4つのパラメータ 」のセクションを参照)4つのパラメータすべてを推定することができる。[ 1 ] [ 42 ] [ 43 ] 過剰尖度は、歪度の2乗と標本サイズν = α + β(前のセクション「尖度」 を参照)で次のように表される。 α ^ , β ^ , a ^ , c ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }},{\hat {a}},{\hat {c}}}
excess kurtosis = 6 3 + ν ( ( 2 + ν ) 4 ( skewness ) 2 − 1 ) if (skewness) 2 − 2 < excess kurtosis < 3 2 ( skewness ) 2 {\displaystyle {\text{excess kurtosis}}={\frac {6}{3+\nu }}\left({\frac {(2+\nu )}{4}}({\text{skewness}})^{2}-1\right){\text{ if (skewness)}}^{2}-2<{\text{excess kurtosis}}<{\tfrac {3}{2}}({\text{skewness}})^{2}}
この式を使って、歪度の2乗と過剰尖度を用いて標本サイズν=α+βを次のように解くことができる。[ 42 ]
ν ^ = α ^ + β ^ = 3 ( sample excess kurtosis ) − ( sample skewness ) 2 + 2 3 2 ( sample skewness ) 2 − (sample excess kurtosis) {\displaystyle {\hat {\nu }}={\hat {\alpha }}+{\hat {\beta }}=3{\frac {({\text{sample excess kurtosis}})-({\text{sample skewness}})^{2}+2}{{\frac {3}{2}}({\text{sample skewness}})^{2}-{\text{(sample excess kurtosis)}}}}} if (sample skewness) 2 − 2 < sample excess kurtosis < 3 2 ( sample skewness ) 2 {\displaystyle {\text{ if (sample skewness)}}^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}}
これは、ある軸の歪度の2乗の座標と他の軸の過剰尖度の座標で定義された空間(カール・ピアソン[ 21 ] によって最初に行われた)におけるベータ分布の以前に導出された極限境界間の比(係数3を乗じた値)である(§歪度の2乗で制限された尖度を 参照)。
歪度がゼロの場合は、α = β であり、したがってν = 2 α = 2 β であり、したがってα = β = ν /2 であるため、すぐに解くことができます。
α ^ = β ^ = ν ^ 2 = 3 2 ( sample excess kurtosis ) + 3 − (sample excess kurtosis) {\displaystyle {\hat {\alpha }}={\hat {\beta }}={\frac {\hat {\nu }}{2}}={\frac {{\frac {3}{2}}({\text{sample excess kurtosis}})+3}{-{\text{(sample excess kurtosis)}}}}} if sample skewness = 0 and − 2 < sample excess kurtosis < 0 {\displaystyle {\text{ if sample skewness}}=0{\text{ and }}-2<{\text{sample excess kurtosis}}<0}
(過剰尖度は、歪度がゼロのベータ分布では負の値となり、範囲は -2 から 0 です。したがって、サンプルの形状パラメータは正の値となり、形状パラメータがゼロに近づき過剰尖度が -2 に近づく場合はゼロになり、形状パラメータが無限大に近づき過剰尖度がゼロに近づく場合は無限大になります)。 ν ^ {\displaystyle {\hat {\nu }}}
標本歪度がゼロでない場合、2つの連立方程式を解く必要があります。歪度と過剰尖度はパラメータに依存しないため、2つの既知変数(標本歪度と標本過剰尖度)と2つの未知数(形状パラメータ)を含む連立方程式を解くことで、標本歪度と標本過剰尖度からパラメータを一意に決定できます。 a ^ , c ^ {\displaystyle {\hat {a}},{\hat {c}}} α ^ , β ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }}}
( sample skewness ) 2 = 4 ( β ^ − α ^ ) 2 ( 1 + α ^ + β ^ ) α ^ β ^ ( 2 + α ^ + β ^ ) 2 {\displaystyle ({\text{sample skewness}})^{2}={\frac {4\left({\hat {\beta }}-{\hat {\alpha }}\right)^{2}\left(1+{\hat {\alpha }}+{\hat {\beta }}\right)}{{\hat {\alpha }}{\hat {\beta }}\left(2+{\hat {\alpha }}+{\hat {\beta }}\right)^{2}}}} sample excess kurtosis = 6 3 + α ^ + β ^ ( ( 2 + α ^ + β ^ ) 4 ( sample skewness ) 2 − 1 ) {\displaystyle {\text{sample excess kurtosis}}={\frac {6}{3+{\hat {\alpha }}+{\hat {\beta }}}}\left({\frac {(2+{\hat {\alpha }}+{\hat {\beta }})}{4}}({\text{sample skewness}})^{2}-1\right)} if (sample skewness) 2 − 2 < sample excess kurtosis < 3 2 ( sample skewness ) 2 {\displaystyle {\text{ if (sample skewness)}}^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}}
その結果、次のような解決策が得られた。[ 42 ]
α ^ , β ^ = ν ^ 2 ( 1 ± 1 1 + 16 ( ν ^ + 1 ) ( ν ^ + 2 ) 2 ( sample skewness ) 2 ) {\displaystyle {\hat {\alpha }},{\hat {\beta }}={\frac {\hat {\nu }}{2}}\left(1\pm {\frac {1}{\sqrt {1+{\frac {16({\hat {\nu }}+1)}{({\hat {\nu }}+2)^{2}({\text{sample skewness}})^{2}}}}}}\right)}
if sample skewness ≠ 0 and ( sample skewness ) 2 − 2 < sample excess kurtosis < 3 2 ( sample skewness ) 2 {\displaystyle {\text{ if sample skewness}}\neq 0{\text{ and }}({\text{sample skewness}})^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}}
ここで、解は次のように取られます: (負の) サンプル歪度 < 0 の場合、および(正の) サンプル歪度 > 0 の場合。 α ^ > β ^ {\displaystyle {\hat {\alpha }}>{\hat {\beta }}} α ^ < β ^ {\displaystyle {\hat {\alpha }}<{\hat {\beta }}}
添付のグラフは、これら2つの解を、水平軸に(標本過剰尖度)と(標本歪度の二乗)をとり、垂直軸に形状パラメータをとった空間における面として示しています。これらの面は、上記の式で規定されているように、標本過剰尖度が標本歪度の二乗で制限されるという条件によって制約されています。2つの面は、歪度ゼロで定義される右端で交わります。この右端では、両方のパラメータが等しく、分布はα = β < 1の場合は対称U字型、α = β = 1の場合は一様、1 < α = β < 2の場合は逆U字型、α = β > 2の場合は釣鐘型となります。また、これらの面は、「不可能境界」線(過剰尖度 + 2 - 歪度2 = 0)で定義される前端(下端)でも交わります。この前方(下側)境界に沿って、両方の形状パラメータはゼロに近づき、確率密度は一方の端に他方の端よりも集中し(中間の領域は実質的に存在しない)、左端の確率はx = 0、右端の確率はx = 1となる。2つの面は後方端に向かってさらに離れる。この後方端では、面パラメータは互いに大きく異なる。例えば、BowmanとShentonが指摘しているように[ 44 ] 、直線(標本過剰尖度 - (3/2)(標本歪度) 2 = 0)(青とベージュが交わる後方端のJ字型部分)の近傍でのサンプリングは「危険なほどカオスに近い」。なぜなら、その直線では、推定値ν = α + βの上の式の分母がゼロとなり、したがって、その直線に近づくにつれてνは無限大に近づくからである。 BowmanとShenton [ 44 ] は、「高次のモーメントパラメータ(尖度と歪度)は(その線付近では)極めて不安定である。しかし、平均値と標準偏差はかなり信頼できる」と述べている。したがって、問題は、過剰尖度が歪度の2乗の(3/2)倍に近づくような、非常に歪んだ分布に対する4パラメータ推定の場合である。この境界線は、パラメータの1つが非常に大きく、もう1つのパラメータが非常に小さい、極端に歪んだ分布によって生成される。数値例とこの後方境界線(標本過剰尖度 - (3/2)(標本歪度) 2 = 0)に関する詳細なコメントについては 、「歪度の2乗で制限される尖度」を 参照のこと。Karl Pearson自身も[ 45 ]で述べているように、 p = β α + β {\displaystyle p={\tfrac {\beta }{\alpha +\beta }}} q = 1 − p = α α + β {\displaystyle q=1-p={\tfrac {\alpha }{\alpha +\beta }}} この問題は、実際にはあまり発生しない、形状パラメータの値が大きく異なる非常に歪んだJ字型(または鏡像J字型)の分布でのみ発生するため、実用上はそれほど重要ではないかもしれません。実際に発生する通常の歪んだベル型分布では、このパラメータ推定の問題は発生しません。
残りの2つのパラメータは、標本平均と標本分散を用いて様々な方程式を用いて決定することができる。[ 1 ] [ 42 ] 一つの代替案として、標本分散と標本尖度に基づいて支持区間の範囲を計算する方法がある。この目的のために、範囲、標本分散と標本サイズ ν に関して過剰尖度を表す方程式を解くことができる(§ 尖度 および§ 代替パラメータ化、4つのパラメータ を 参照)。 a ^ , c ^ {\displaystyle {\hat {a}},{\hat {c}}} ( c ^ − a ^ ) {\displaystyle ({\hat {c}}-{\hat {a}})} ( c ^ − a ^ ) {\displaystyle ({\hat {c}}-{\hat {a}})}
sample excess kurtosis = 6 ( 3 + ν ^ ) ( 2 + ν ^ ) ( ( c ^ − a ^ ) 2 (sample variance) − 6 − 5 ν ^ ) {\displaystyle {\text{sample excess kurtosis}}={\frac {6}{(3+{\hat {\nu }})(2+{\hat {\nu }})}}{\bigg (}{\frac {({\hat {c}}-{\hat {a}})^{2}}{\text{(sample variance)}}}-6-5{\hat {\nu }}{\bigg )}}
次を得る:
( c ^ − a ^ ) = (sample variance) 6 + 5 ν ^ + ( 2 + ν ^ ) ( 3 + ν ^ ) 6 (sample excess kurtosis) {\displaystyle ({\hat {c}}-{\hat {a}})={\sqrt {\text{(sample variance)}}}{\sqrt {6+5{\hat {\nu }}+{\frac {(2+{\hat {\nu }})(3+{\hat {\nu }})}{6}}{\text{(sample excess kurtosis)}}}}}
別の方法としては、標本分散と標本歪度に基づいて支持区間の範囲を計算することです。 [ 42 ] この目的のために、範囲を用いて、標本分散と標本サイズνで歪度の2乗を表す式を解くことができます(「歪度」および「代替パラメータ化、4つのパラメータ」のセクションを参照)。 ( c ^ − a ^ ) {\displaystyle ({\hat {c}}-{\hat {a}})} ( c ^ − a ^ ) {\displaystyle ({\hat {c}}-{\hat {a}})}
( sample skewness ) 2 = 4 ( 2 + ν ^ ) 2 ( ( c ^ − a ^ ) 2 (sample variance) − 4 ( 1 + ν ^ ) ) {\displaystyle ({\text{sample skewness}})^{2}={\frac {4}{(2+{\hat {\nu }})^{2}}}{\bigg (}{\frac {({\hat {c}}-{\hat {a}})^{2}}{\text{(sample variance)}}}-4(1+{\hat {\nu }}){\bigg )}}
入手するには:[ 42 ]
( c ^ − a ^ ) = (sample variance) 2 ( 2 + ν ^ ) 2 ( sample skewness ) 2 + 16 ( 1 + ν ^ ) {\displaystyle ({\hat {c}}-{\hat {a}})={\frac {\sqrt {\text{(sample variance)}}}{2}}{\sqrt {(2+{\hat {\nu }})^{2}({\text{sample skewness}})^{2}+16(1+{\hat {\nu }})}}}
残りのパラメータは、サンプル平均と以前に得られたパラメータから決定できます。 ( c ^ − a ^ ) , α ^ , ν ^ = α ^ + β ^ {\displaystyle ({\hat {c}}-{\hat {a}}),{\hat {\alpha }},{\hat {\nu }}={\hat {\alpha }}+{\hat {\beta }}}
a ^ = ( sample mean ) − ( α ^ ν ^ ) ( c ^ − a ^ ) {\displaystyle {\hat {a}}=({\text{sample mean}})-\left({\frac {\hat {\alpha }}{\hat {\nu }}}\right)({\hat {c}}-{\hat {a}})}
そして最後に、。 c ^ = ( c ^ − a ^ ) + a ^ {\displaystyle {\hat {c}}=({\hat {c}}-{\hat {a}})+{\hat {a}}}
上記の式では、サンプルモーメントの推定値として、たとえば次の式を取ることができます。
sample mean = y ¯ = 1 N ∑ i = 1 N Y i sample variance = v ¯ Y = 1 N − 1 ∑ i = 1 N ( Y i − y ¯ ) 2 sample skewness = G 1 = N ( N − 1 ) ( N − 2 ) ∑ i = 1 N ( Y i − y ¯ ) 3 v ¯ Y 3 2 sample excess kurtosis = G 2 = N ( N + 1 ) ( N − 1 ) ( N − 2 ) ( N − 3 ) ∑ i = 1 N ( Y i − y ¯ ) 4 v ¯ Y 2 − 3 ( N − 1 ) 2 ( N − 2 ) ( N − 3 ) {\displaystyle {\begin{aligned}{\text{sample mean}}&={\overline {y}}={\frac {1}{N}}\sum _{i=1}^{N}Y_{i}\\{\text{sample variance}}&={\overline {v}}_{Y}={\frac {1}{N-1}}\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{2}\\{\text{sample skewness}}&=G_{1}={\frac {N}{(N-1)(N-2)}}{\frac {\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{3}}{{\overline {v}}_{Y}^{\frac {3}{2}}}}\\{\text{sample excess kurtosis}}&=G_{2}={\frac {N(N+1)}{(N-1)(N-2)(N-3)}}{\frac {\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{4}}{{\overline {v}}_{Y}^{2}}}-{\frac {3(N-1)^{2}}{(N-2)(N-3)}}\end{aligned}}}
標本歪度 の推定値G 1 と標本尖度 の推定値G 2は、 DAP / SAS 、PSPP / SPSS 、Excel で使用されています。ただし、 BMDP では使用されず、( [ 46 ] によると) 1998 年のMINITAB でも使用されていませんでした。実際、 Joanes と Gill は 1998 年の研究[ 46 ] で、 BMDP とMINITAB (当時) で使用されている歪度と尖度の推定値は正規標本では分散と平均二乗誤差が小さいが、 DAP / SAS 、PSPP / SPSS で使用されている歪度と尖度の推定値、つまりG 1 とG 2 は、非常に歪んだ分布の標本では平均二乗誤差が小さいと結論付けています。このため、上記の式では「標本の歪度」などについて明記し、歪度と尖度の最適な推定値は歪度の大きさに依存する(JoanesとGill [ 46 ] で示されているように)ため、ユーザーは問題に応じて最適な推定値を選択する必要があることを明確にしています。
最大尤度
2つの未知パラメータ α = β = 2におけるベータ分布の最大値に対する最大値(結合対数尤度/ N ) α = β ∈ {0.25,0.5,1,2,4,6,8}におけるベータ分布の最大値(結合対数尤度/ N ) ガンマ分布の 最尤推定 値の場合と同様に、ベータ分布の最尤推定値は、形状パラメータの任意の値に対して一般的な閉形式の解を持ちません。X 1 , ..., X N がそれぞれベータ分布に従う独立確率変数である場合、 N 個の iid 観測値に対する結合対数尤度関数は次 の ようになります。
ln L ( α , β ∣ X ) = ∑ i = 1 N ln L i ( α , β ∣ X i ) = ∑ i = 1 N ln f ( X i ; α , β ) = ∑ i = 1 N ln X i α − 1 ( 1 − X i ) β − 1 B ( α , β ) = ( α − 1 ) ∑ i = 1 N ln X i + ( β − 1 ) ∑ i = 1 N ln ( 1 − X i ) − N ln B ( α , β ) {\displaystyle {\begin{aligned}\ln \,{\mathcal {L}}(\alpha ,\beta \mid X)&=\sum _{i=1}^{N}\ln {\mathcal {L}}_{i}(\alpha ,\beta \mid X_{i})\\&=\sum _{i=1}^{N}\ln f(X_{i};\alpha ,\beta )\\&=\sum _{i=1}^{N}\ln {\frac {X_{i}^{\alpha -1}(1-X_{i})^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\\&=(\alpha -1)\sum _{i=1}^{N}\ln X_{i}+(\beta -1)\sum _{i=1}^{N}\ln(1-X_{i})-N\ln \mathrm {B} (\alpha ,\beta )\end{aligned}}}
形状パラメータに関する最大値を見つけるには、形状パラメータに関する偏微分を取り、式をゼロに設定して形状パラメータの 最大尤度推定値を生成します。
∂ ln L ( α , β ∣ X ) ∂ α = ∑ i = 1 N ln X i − N ∂ ln B ( α , β ) ∂ α = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha }}=\sum _{i=1}^{N}\ln X_{i}-N{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}=0} ∂ ln L ( α , β ∣ X ) ∂ β = ∑ i = 1 N ln ( 1 − X i ) − N ∂ ln B ( α , β ) ∂ β = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta }}=\sum _{i=1}^{N}\ln(1-X_{i})-N{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \beta }}=0}
ここで:
∂ ln B ( α , β ) ∂ α = − ∂ ln Γ ( α + β ) ∂ α + ∂ ln Γ ( α ) ∂ α + ∂ ln Γ ( β ) ∂ α = − ψ ( α + β ) + ψ ( α ) + 0 {\displaystyle {\begin{aligned}{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}&=-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \alpha }}+{\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}+{\frac {\partial \ln \Gamma (\beta )}{\partial \alpha }}\\[1ex]&=-\psi (\alpha +\beta )+\psi (\alpha )+0\end{aligned}}} ∂ ln B ( α , β ) ∂ β = − ∂ ln Γ ( α + β ) ∂ β + ∂ ln Γ ( α ) ∂ β + ∂ ln Γ ( β ) ∂ β = − ψ ( α + β ) + 0 + ψ ( β ) {\displaystyle {\begin{aligned}{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \beta }}&=-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \beta }}+{\frac {\partial \ln \Gamma (\alpha )}{\partial \beta }}+{\frac {\partial \ln \Gamma (\beta )}{\partial \beta }}\\[1ex]&=-\psi (\alpha +\beta )+0+\psi (\beta )\end{aligned}}}
ψ(α)で表される二重ガンマ関数は 、ガンマ関数 の対数微分 として定義されているため:[ 18 ]
ψ ( α ) = ∂ ln Γ ( α ) ∂ α {\displaystyle \psi (\alpha )={\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}}
接線勾配がゼロの値が(鞍点や最小値ではなく)最大値となることを保証するには、曲率が負であるという条件も満たす必要がある。これは、形状パラメータに関する2次偏微分が負であることを満たすことを意味する。
∂ 2 ln L ( α , β ∣ X ) ∂ α 2 = − N ∂ 2 ln B ( α , β ) ∂ α 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha ^{2}}}=-N{\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha ^{2}}}<0} ∂ 2 ln L ( α , β ∣ X ) ∂ β 2 = − N ∂ 2 ln B ( α , β ) ∂ β 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta ^{2}}}=-N{\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \beta ^{2}}}<0}
前の式を使用すると、これは次の式と同等になります。
∂ 2 ln B ( α , β ) ∂ α 2 = ψ 1 ( α ) − ψ 1 ( α + β ) > 0 {\displaystyle {\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha ^{2}}}=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )>0} ∂ 2 ln B ( α , β ) ∂ β 2 = ψ 1 ( β ) − ψ 1 ( α + β ) > 0 {\displaystyle {\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \beta ^{2}}}=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )>0}
ここで、三ガンマ関数 (ψ 1 ( α )と表記)は、ポリガンマ関数 の2番目であり、二ガンマ 関数の導関数として定義されます。
ψ 1 ( α ) = ∂ 2 ln Γ ( α ) ∂ α 2 = ∂ ψ ( α ) ∂ α . {\displaystyle \psi _{1}(\alpha )={\frac {\partial ^{2}\ln \Gamma (\alpha )}{\partial \alpha ^{2}}}=\,{\frac {\partial \,\psi (\alpha )}{\partial \alpha }}.}
これらの条件は、対数変換された変数の分散が正であると述べることと同等です。
var [ ln ( X ) ] = E [ ln 2 ( X ) ] − ( E [ ln ( X ) ] ) 2 = ψ 1 ( α ) − ψ 1 ( α + β ) {\displaystyle \operatorname {var} [\ln(X)]=\operatorname {E} [\ln ^{2}(X)]-(\operatorname {E} [\ln(X)])^{2}=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )} var [ ln ( 1 − X ) ] = E [ ln 2 ( 1 − X ) ] − ( E [ ln ( 1 − X ) ] ) 2 = ψ 1 ( β ) − ψ 1 ( α + β ) {\displaystyle \operatorname {var} [\ln(1-X)]=\operatorname {E} [\ln ^{2}(1-X)]-(\operatorname {E} [\ln(1-X)])^{2}=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )}
したがって、最大の負の曲率の条件は次のステートメントと同等です。
var [ ln ( X ) ] > 0 {\displaystyle \operatorname {var} [\ln(X)]>0} var [ ln ( 1 − X ) ] > 0 {\displaystyle \operatorname {var} [\ln(1-X)]>0}
あるいは、最大の負の曲率の条件は、幾何平均 G X とG (1−X) の次の対数微分 が正であると述べることと同等です。
ψ 1 ( α ) − ψ 1 ( α + β ) = ∂ ln G X ∂ α > 0 {\displaystyle \psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\frac {\partial \ln G_{X}}{\partial \alpha }}>0} ψ 1 ( β ) − ψ 1 ( α + β ) = ∂ ln G ( 1 − X ) ∂ β > 0 {\displaystyle \psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\frac {\partial \ln G_{(1-X)}}{\partial \beta }}>0}
これらの傾きは確かに正ですが、他の傾きは負です。
∂ ln G X ∂ β , ∂ ln G 1 − X ∂ α < 0. {\displaystyle {\frac {\partial \,\ln G_{X}}{\partial \beta }},{\frac {\partial \ln G_{1-X}}{\partial \alpha }}<0.}
α とβ に対する平均値と中央値の傾きは、同様の符号挙動を示します。
形状パラメータに関する偏微分が最大値でゼロになるという条件から、平均対数尤度に対する次の最大尤度推定方程式の連立方程式が得られる。これを逆行列で表すと、サンプル X 1 , ..., X N の対数の(既知の)平均に関する(未知の)形状パラメータ推定値が得られる。[ 1 ] α ^ , β ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }}}
E ^ [ ln ( X ) ] = ψ ( α ^ ) − ψ ( α ^ + β ^ ) = 1 N ∑ i = 1 N ln X i = ln G ^ X E ^ [ ln ( 1 − X ) ] = ψ ( β ^ ) − ψ ( α ^ + β ^ ) = 1 N ∑ i = 1 N ln ( 1 − X i ) = ln G ^ 1 − X {\displaystyle {\begin{aligned}{\hat {\operatorname {E} }}[\ln(X)]&=\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}=\ln {\hat {G}}_{X}\\{\hat {\operatorname {E} }}[\ln(1-X)]&=\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln(1-X_{i})=\ln {\hat {G}}_{1-X}\end{aligned}}}
ここで、 は標本幾何平均 の対数、 はX の鏡像 である (1 − X )に基づく 標本幾何平均 の対数であると認識します。 については、 が成り立ちます 。 log G ^ X {\displaystyle \log {\hat {G}}_{X}} log G ^ 1 − X {\displaystyle \log {\hat {G}}_{1-X}} α ^ = β ^ {\displaystyle {\hat {\alpha }}={\hat {\beta }}} G ^ X = G ^ 1 − X {\displaystyle {\hat {G}}_{X}={\hat {G}}_{1-X}}
G ^ X = ∏ i = 1 N ( X i ) 1 / N G ^ 1 − X = ∏ i = 1 N ( 1 − X i ) 1 / N {\displaystyle {\begin{aligned}{\hat {G}}_{X}&=\prod _{i=1}^{N}(X_{i})^{1/N}\\{\hat {G}}_{1-X}&=\prod _{i=1}^{N}(1-X_{i})^{1/N}\end{aligned}}}
形状パラメータ推定値のディガンマ関数 を含むこれらの連立方程式は、例えばBeckmanら[ 47 ] が行ったような数値手法で解く必要がある。Gnanadesikanらはいくつかのケースについて数値解を与えている。[ 48 ] NLJohnson とS.Kotz [ 1 ] は、 「小さすぎない」形状パラメータ推定値の場合、ディガンマ関数の対数近似を使用して反復解の初期値を取得できることを示唆している。この近似から得られる方程式は正確に解くことができるためである。 α ^ , β ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }}} α ^ , β ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }}} ψ ( α ^ ) ≈ ln ( α ^ − 1 2 ) {\displaystyle \psi ({\hat {\alpha }})\approx \ln({\hat {\alpha }}-{\tfrac {1}{2}})}
ln α ^ − 1 2 α ^ + β ^ − 1 2 ≈ ln G ^ X {\displaystyle \ln {\frac {{\hat {\alpha }}-{\frac {1}{2}}}{{\hat {\alpha }}+{\hat {\beta }}-{\frac {1}{2}}}}\approx \ln {\hat {G}}_{X}} ln β ^ − 1 2 α ^ + β ^ − 1 2 ≈ ln G ^ 1 − X {\displaystyle \ln {\frac {{\hat {\beta }}-{\frac {1}{2}}}{{\hat {\alpha }}+{\hat {\beta }}-{\frac {1}{2}}}}\approx \ln {\hat {G}}_{1-X}}
これにより、反復解の初期値(サンプル幾何平均による推定形状パラメータ)は次のようになります。
α ^ ≈ 1 2 + G ^ X 2 ( 1 − G ^ X − G ^ 1 − X ) if α ^ > 1 {\displaystyle {\hat {\alpha }}\approx {\frac {1}{2}}+{\frac {{\hat {G}}_{X}}{2\left(1-{\hat {G}}_{X}-{\hat {G}}_{1-X}\right)}}{\text{ if }}{\hat {\alpha }}>1} β ^ ≈ 1 2 + G ^ 1 − X 2 ( 1 − G ^ X − G ^ 1 − X ) if β ^ > 1 {\displaystyle {\hat {\beta }}\approx {\frac {1}{2}}+{\frac {{\hat {G}}_{1-X}}{2\left(1-{\hat {G}}_{X}-{\hat {G}}_{1-X}\right)}}{\text{ if }}{\hat {\beta }}>1}
あるいは、モーメント法によって提供される推定値は、二重ガンマ関数に関する最大尤度結合方程式の反復解の初期値として使用することもできます。
分布が[0, 1]以外の既知の区間、例えば[ a , c ]の確率変数 X で求められる場合、最初の式の ln( X i )を次のように置き換えます。
ln Y i − a c − a , {\displaystyle \ln {\frac {Y_{i}-a}{c-a}},}
2番目の式のln(1− X i )を次のように 置き換える。
ln c − Y i c − a {\displaystyle \ln {\frac {c-Y_{i}}{c-a}}}
(以下の「代替パラメータ化、4 つのパラメータ」セクションを参照してください)。
形状パラメータの1つが既知であれば、問題は大幅に簡素化されます。以下のロジット 変換を用いて、未知の形状パラメータを解くことができます( となる歪んだケース、そうでない場合、対称なケースでは、1つが既知であれば両方のパラメータが既知です)。 α ^ ≠ β ^ {\displaystyle {\hat {\alpha }}\neq {\hat {\beta }}}
E ^ [ ln X 1 − X ] = ψ ( α ^ ) − ψ ( β ^ ) = 1 N ∑ i = 1 N ln X i 1 − X i = ln G ^ X − ln G ^ 1 − X {\displaystyle {\hat {\operatorname {E} }}\left[\ln {\frac {X}{1-X}}\right]=\psi ({\hat {\alpha }})-\psi ({\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {X_{i}}{1-X_{i}}}=\ln {\hat {G}}_{X}-\ln {\hat {G}}_{1-X}}
このロジット 変換は、変数Xを その鏡像(X /(1- X) )で割る変換の対数であり、サポート[0, +∞]を持つ「逆ベータ分布」またはベータプライム分布 (第2種ベータ分布またはピアソンのタイプVI とも呼ばれる)になります。「対数変換されたランダム変数のモーメント」のセクションで以前に説明したように、ジョンソン[ 25 ] によって研究されたロジット 変換は、元の変数X に基づく有限サポート[0, 1]を実数線(-∞、+∞)の両方向で無限サポートに拡張します。 ln X 1 − X {\displaystyle \ln {\frac {X}{1-X}}}
例えば、が既知である場合、未知のパラメータはこの式の右辺の 逆[ 49 ] 二ガンマ関数によって得ることができる。β ^ {\displaystyle {\hat {\beta }}} α ^ {\displaystyle {\hat {\alpha }}}
ψ ( α ^ ) = 1 N ∑ i = 1 N ln X i 1 − X i + ψ ( β ^ ) {\displaystyle \psi ({\hat {\alpha }})={\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {X_{i}}{1-X_{i}}}+\psi ({\hat {\beta }})} α ^ = ψ − 1 ( ln G ^ X − ln G ^ ( 1 − X ) + ψ ( β ^ ) ) {\displaystyle {\hat {\alpha }}=\psi ^{-1}\left(\ln {\hat {G}}_{X}-\ln {\hat {G}}_{(1-X)}+\psi ({\hat {\beta }})\right)}
特に、形状パラメータの1つが1の値を持つ場合、例えば(境界サポート[0,1]のべき関数分布)の場合、式中の恒等式ψ( x + 1) = ψ( x ) + 1/ x を使用すると、未知のパラメータの最大尤度推定値は[ 1 ] とまったく同じに なります。β ^ = 1 {\displaystyle {\hat {\beta }}=1} ψ ( α ^ ) − ψ ( α ^ + β ^ ) = ln G ^ X {\displaystyle \psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{X}} α ^ {\displaystyle {\hat {\alpha }}}
α ^ = − 1 1 N ∑ i = 1 N ln X i = − 1 ln G ^ X {\displaystyle {\hat {\alpha }}=-{\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}}}=-{\frac {1}{\ln {\hat {G}}_{X}}}}
ベータは[0, 1]のサポートを持つので、 であり、したがってであり、したがってG ^ X < 1 {\displaystyle {\hat {G}}_{X}<1} ( − ln G ^ X ) > 0 {\displaystyle (-\ln {\hat {G}}_{X})>0} α ^ > 0. {\displaystyle {\hat {\alpha }}>0.}
結論として、ベータ分布の形状パラメータの最尤推定値は (一般に) 標本の幾何平均 、およびX の鏡像である (1− X ))に基づく標本の幾何平均 の複雑な関数です。モーメント法で 2 つの形状パラメータを推定するために平均に加えて分散が必要なのに、最尤法で 2 つの形状パラメータを推定するために (対数または幾何) 分散は必要なく、幾何平均だけで十分なのはなぜか、という疑問が生じるかもしれません。その答えは、平均は幾何平均ほど多くの情報を提供しないためです。等しい形状パラメータα = β を持つベータ分布の場合、平均は、形状パラメータの値に関係なく、したがって統計的分散 (分散) の値に関係なく、正確に 1/2 になります。一方、等しい形状パラメータα = β を持つベータ分布の幾何平均は、形状パラメータの値に依存するため、より多くの情報が含まれます。また、ベータ分布の幾何平均は平均が満たす対称条件を満たさないため、X に基づく幾何平均と(1 − X )に基づく幾何平均の両方を使用することで、最大尤度法は分散を使用せずに 両方のパラメータα = β の最良の推定値を提供することができます。
Ni iid 観測値ごとの結合対数尤度は、十分な統計量 (サンプル幾何平均) の観点から次のように表すことができます。
ln L ( α , β ∣ X ) N = ( α − 1 ) ln G ^ X + ( β − 1 ) ln G ^ ( 1 − X ) − ln B ( α , β ) . {\displaystyle {\frac {\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N}}=(\alpha -1)\ln {\hat {G}}_{X}+(\beta -1)\ln {\hat {G}}_{(1-X)}-\ln \mathrm {B} (\alpha ,\beta ).}
標本の幾何平均の値を固定して、 N 個 の観測値あたりの結合対数尤度をプロットすることで、尤度関数が形状パラメータ α と β の関数としてどのように振舞うかを見ることができます。このようなプロットでは、形状パラメータ推定値は尤度関数の最大値に対応します。すべての尤度関数が α = β = 1 で交差していることを示す添付のグラフを参照してください。これは、最大エントロピーを与える形状パラメータの値に対応します (最大エントロピーは形状パラメータが 1 に等しい場合、つまり一様分布の場合に発生します)。プロットから、尤度関数は形状パラメータ推定値の値が 0 に近い場合に鋭いピークを示しますが、形状パラメータ推定値の値が 1 より大きい場合、尤度関数は非常に平坦になり、ピークがあまり明確でないことがわかります。明らかに、ベータ分布の最大尤度パラメータ推定法は、形状パラメータ推定値の値が大きくなるにつれてピーク定義の不確実性が増大するため、形状パラメータ推定値が大きい場合にはあまり受け入れられなくなります。尤度関数の曲率の表現が幾何分散で表されていることに注目すれば、同じ結論に達することができる。 α ^ , β ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }}}
∂ 2 ln L ( α , β ∣ X ) ∂ α 2 = − var [ ln X ] {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha ^{2}}}=-\operatorname {var} [\ln X]} ∂ 2 ln L ( α , β ∣ X ) ∂ β 2 = − var [ ln ( 1 − X ) ] {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta ^{2}}}=-\operatorname {var} [\ln(1-X)]}
これらの分散(ひいては曲率)は、形状パラメータαとβの値が小さい場合、はるかに大きくなります。しかし、形状パラメータα、β > 1の場合、分散(ひいては曲率)は平坦になります。同様に、この結果はクラメール・ラオ境界 から導かれます。なぜなら、ベータ分布のフィッシャー情報 行列成分はこれらの対数分散だからです。クラメール・ラオ境界は、αの任意の 不偏 推定値の分散が フィッシャー情報量 の逆数 によって制限されることを示しています。 α ^ {\displaystyle {\hat {\alpha }}}
v a r ( α ^ ) ≥ 1 var [ ln X ] ≥ 1 ψ 1 ( α ^ ) − ψ 1 ( α ^ + β ^ ) {\displaystyle \mathrm {var} ({\hat {\alpha }})\geq {\frac {1}{\operatorname {var} [\ln X]}}\geq {\frac {1}{\psi _{1}({\hat {\alpha }})-\psi _{1}({\hat {\alpha }}+{\hat {\beta }})}}} v a r ( β ^ ) ≥ 1 var [ ln ( 1 − X ) ] ≥ 1 ψ 1 ( β ^ ) − ψ 1 ( α ^ + β ^ ) {\displaystyle \mathrm {var} ({\hat {\beta }})\geq {\frac {1}{\operatorname {var} [\ln(1-X)]}}\geq {\frac {1}{\psi _{1}({\hat {\beta }})-\psi _{1}({\hat {\alpha }}+{\hat {\beta }})}}}
したがって、対数分散が減少するにつれて、α と β が増加すると推定値の分散が増加します。
また、サンプル幾何平均の対数に対するディガンマ関数 式を使用して、N iid 観測値ごとの結合対数尤度を次のように表すこともできます。
ln L ( α , β ∣ X ) N = ( α − 1 ) ( ψ ( α ^ ) − ψ ( α ^ + β ^ ) ) + ( β − 1 ) ( ψ ( β ^ ) − ψ ( α ^ + β ^ ) ) − ln B ( α , β ) {\displaystyle {\frac {\ln \,{\mathcal {L}}(\alpha ,\beta \mid X)}{N}}=(\alpha -1)(\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }}))+(\beta -1)(\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }}))-\ln \mathrm {B} (\alpha ,\beta )}
この式はクロスエントロピーの負数と同一です(「情報量(エントロピー)」のセクションを参照)。したがって、N iid 観測値ごとに形状パラメータの結合対数尤度の最大値を求めることは、形状パラメータの関数としてベータ分布のクロスエントロピーの最小値を求めることと同一です。
ln L ( α , β ∣ X ) N = − H = − h − D K L = − ln B ( α , β ) + ( α − 1 ) ψ ( α ^ ) + ( β − 1 ) ψ ( β ^ ) − ( α + β − 2 ) ψ ( α ^ + β ^ ) {\displaystyle {\begin{aligned}{\frac {\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N}}&=-H=-h-D_{\mathrm {KL} }\\&=-\ln \mathrm {B} (\alpha ,\beta )+(\alpha -1)\psi ({\hat {\alpha }})+(\beta -1)\psi ({\hat {\beta }})-(\alpha +\beta -2)\psi ({\hat {\alpha }}+{\hat {\beta }})\end{aligned}}}
クロスエントロピーは次のように定義されます。
H = ∫ 0 1 − f ( X ; α ^ , β ^ ) ln ( f ( X ; α , β ) ) d X {\displaystyle H=\int _{0}^{1}-f(X;{\hat {\alpha }},{\hat {\beta }})\ln(f(X;\alpha ,\beta ))\,{\rm {d}}X}
4つの未知のパラメータ この手順は、2つの未知パラメータの場合と同様です。Y 1 、…、Y N がそれぞれ4つのパラメータを持つベータ分布に従う独立確率変数である場合、 N 個のiid 観測値の結合対数尤度関数は次 の ようになります。
ln L ( α , β , a , c ∣ Y ) = ∑ i = 1 N ln L i ( α , β , a , c ∣ Y i ) = ∑ i = 1 N ln f ( Y i ; α , β , a , c ) = ∑ i = 1 N ln ( Y i − a ) α − 1 ( c − Y i ) β − 1 ( c − a ) α + β − 1 B ( α , β ) = ( α − 1 ) ∑ i = 1 N ln ( Y i − a ) + ( β − 1 ) ∑ i = 1 N ln ( c − Y i ) − N ln B ( α , β ) − N ( α + β − 1 ) ln ( c − a ) {\displaystyle {\begin{aligned}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)&=\sum _{i=1}^{N}\ln \,{\mathcal {L}}_{i}(\alpha ,\beta ,a,c\mid Y_{i})\\&=\sum _{i=1}^{N}\ln f(Y_{i};\alpha ,\beta ,a,c)\\&=\sum _{i=1}^{N}\ln {\frac {(Y_{i}-a)^{\alpha -1}(c-Y_{i})^{\beta -1}}{(c-a)^{\alpha +\beta -1}\mathrm {B} (\alpha ,\beta )}}\\&=(\alpha -1)\sum _{i=1}^{N}\ln(Y_{i}-a)+(\beta -1)\sum _{i=1}^{N}\ln(c-Y_{i})-N\ln \mathrm {B} (\alpha ,\beta )-N(\alpha +\beta -1)\ln(c-a)\end{aligned}}}
形状パラメータに関する最大値を見つけるには、形状パラメータに関する偏微分を取り、式をゼロに設定して形状パラメータの 最大尤度推定値を生成します。
∂ ln L ( α , β , a , c ∣ Y ) ∂ α = ∑ i = 1 N ln ( Y i − a ) − N ( − ψ ( α + β ) + ψ ( α ) ) − N ln ( c − a ) = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha }}=\sum _{i=1}^{N}\ln(Y_{i}-a)-N(-\psi (\alpha +\beta )+\psi (\alpha ))-N\ln(c-a)=0} ∂ ln L ( α , β , a , c ∣ Y ) ∂ β = ∑ i = 1 N ln ( c − Y i ) − N ( − ψ ( α + β ) + ψ ( β ) ) − N ln ( c − a ) = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta }}=\sum _{i=1}^{N}\ln(c-Y_{i})-N(-\psi (\alpha +\beta )+\psi (\beta ))-N\ln(c-a)=0} ∂ ln L ( α , β , a , c ∣ Y ) ∂ a = − ( α − 1 ) ∑ i = 1 N 1 Y i − a + N ( α + β − 1 ) 1 c − a = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a}}=-(\alpha -1)\sum _{i=1}^{N}{\frac {1}{Y_{i}-a}}\,+N(\alpha +\beta -1){\frac {1}{c-a}}=0} ∂ ln L ( α , β , a , c ∣ Y ) ∂ c = ( β − 1 ) ∑ i = 1 N 1 c − Y i − N ( α + β − 1 ) 1 c − a = 0 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c}}=(\beta -1)\sum _{i=1}^{N}{\frac {1}{c-Y_{i}}}\,-N(\alpha +\beta -1){\frac {1}{c-a}}=0}
これらの方程式は、4つのパラメータの最大尤度推定値に基づいて、次の4つの連立方程式(最初の2つの方程式は幾何平均、次の2つの方程式は調和平均)として再構成できます。 α ^ , β ^ , a ^ , c ^ {\displaystyle {\hat {\alpha }},{\hat {\beta }},{\hat {a}},{\hat {c}}}
1 N ∑ i = 1 N ln Y i − a ^ c ^ − a ^ = ψ ( α ^ ) − ψ ( α ^ + β ^ ) = ln G ^ X {\displaystyle {\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {Y_{i}-{\hat {a}}}{{\hat {c}}-{\hat {a}}}}=\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{X}} 1 N ∑ i = 1 N ln c ^ − Y i c ^ − a ^ = ψ ( β ^ ) − ψ ( α ^ + β ^ ) = ln G ^ 1 − X {\displaystyle {\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {{\hat {c}}-Y_{i}}{{\hat {c}}-{\hat {a}}}}=\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{1-X}} 1 1 N ∑ i = 1 N c ^ − a ^ Y i − a ^ = α ^ − 1 α ^ + β ^ − 1 = H ^ X {\displaystyle {\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}{\frac {{\hat {c}}-{\hat {a}}}{Y_{i}-{\hat {a}}}}}}={\frac {{\hat {\alpha }}-1}{{\hat {\alpha }}+{\hat {\beta }}-1}}={\hat {H}}_{X}} 1 1 N ∑ i = 1 N c ^ − a ^ c ^ − Y i = β ^ − 1 α ^ + β ^ − 1 = H ^ 1 − X {\displaystyle {\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}{\frac {{\hat {c}}-{\hat {a}}}{{\hat {c}}-Y_{i}}}}}={\frac {{\hat {\beta }}-1}{{\hat {\alpha }}+{\hat {\beta }}-1}}={\hat {H}}_{1-X}}
サンプル幾何平均付き:
G ^ X = ∏ i = 1 N ( Y i − a ^ c ^ − a ^ ) 1 N {\displaystyle {\hat {G}}_{X}=\prod _{i=1}^{N}\left({\frac {Y_{i}-{\hat {a}}}{{\hat {c}}-{\hat {a}}}}\right)^{\frac {1}{N}}} G ^ ( 1 − X ) = ∏ i = 1 N ( c ^ − Y i c ^ − a ^ ) 1 N {\displaystyle {\hat {G}}_{(1-X)}=\prod _{i=1}^{N}\left({\frac {{\hat {c}}-Y_{i}}{{\hat {c}}-{\hat {a}}}}\right)^{\frac {1}{N}}}
パラメータは、非線形な方法(1/ N 乗)で幾何平均式の中に埋め込まれます。これにより、反復計算のための初期値近似値であっても、一般に閉じた形式の解は得られません。1 つの代替案として、反復計算の初期値として、4 パラメータの場合のモーメント法の解から得られた値を使用する方法があります。さらに、調和平均の式は に対してのみ明確に定義されるため、4 パラメータの場合の形状パラメータが 1 より小さい場合の最大尤度解は得られません。4 パラメータの場合のフィッシャー情報行列は、 α、β > 2 の場合のみ正定値 です(詳細については、「4 パラメータの場合のフィッシャー情報行列」のセクションを参照)。これは、変曲点がモードのいずれかの側に位置するベル型(対称または非対称)ベータ分布の場合です。次のフィッシャー情報成分(対数尤度関数の曲率の期待値を表す)は、次の値で 特異点を持ちます。 a ^ , c ^ {\displaystyle {\hat {a}},{\hat {c}}} α ^ , β ^ > 1 {\displaystyle {\hat {\alpha }},{\hat {\beta }}>1}
α = 2 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ a 2 ] = I a , a {\displaystyle \alpha =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a^{2}}}\right]={\mathcal {I}}_{a,a}} β = 2 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ c 2 ] = I c , c {\displaystyle \beta =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c^{2}}}\right]={\mathcal {I}}_{c,c}} α = 2 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α ∂ a ] = I α , a {\displaystyle \alpha =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \partial a}}\right]={\mathcal {I}}_{\alpha ,a}} β = 1 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ β ∂ c ] = I β , c {\displaystyle \beta =1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \partial c}}\right]={\mathcal {I}}_{\beta ,c}}
(詳細については、フィッシャー情報行列のセクションを参照してください。)したがって、一様分布 (Beta(1, 1, a , c ))や逆正弦 分布(Beta (1/2, 1/2, a , c ))など、4パラメータベータ分布族に属するよく知られた分布に対しては、厳密に最尤推定を行うことはできません。 NLJohnson とS.Kotz [ 1 ] は調和平均の式を無視し、代わりに「aとcが未知で、a 、c 、α、βの最尤推定値が必要な場合は、上記の手順(2つの未知パラメータの場合、Xは X = ( Y − a )/( c − a )に変換されます)を、 a とc の一連の試行値を使用して繰り返すことで、最大尤度( a とc が与えられた場合)が可能な限り大きくなるペア(a 、c )が得られるまで繰り返すことができます」と提案しています(ここでは、明確にするために、パラメータの表記法を現在の表記法に翻訳しています)。
確率変数Xの確率密度をf(x;α)とする。 対数 尤度関数 の( 未知で推定される)パラメータαに関する偏微分をスコア と呼ぶ。スコアの2次モーメントをフィッシャー情報 と 呼ぶ
I ( α ) = E [ ( ∂ ∂ α ln L ( α ∣ X ) ) 2 ] , {\displaystyle {\mathcal {I}}(\alpha )=\operatorname {E} \left[\left({\frac {\partial }{\partial \alpha }}\ln {\mathcal {L}}(\alpha \mid X)\right)^{2}\right],}
スコア の期待値は ゼロなので、フィッシャー情報もスコアの平均を中心とした 2 番目のモーメント、つまりスコアの 分散になります。
対数尤度関数が パラメータαに関して2回微分可能であり、特定の正則性条件下では、[ 50 ] フィッシャー情報は次のようにも表される(これは計算目的にはより便利な形式であることが多い)。
I ( α ) = − E [ ∂ 2 ∂ α 2 ln L ( α ∣ X ) ] . {\displaystyle {\mathcal {I}}(\alpha )=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \alpha ^{2}}}\ln {\mathcal {L}}(\alpha \mid X)\right].}
したがって、フィッシャー情報量は、対数尤度関数 のパラメータαに関する2次導関数 の期待値の負の値である。したがって、フィッシャー情報量は、αの対数尤度関数の曲率 の尺度である。曲率 が低い(したがって曲率半径が 大きい)平坦な対数尤度関数曲線はフィッシャー情報量が低い。一方、曲率 が大きい(したがって曲率半径が 小さい)対数尤度関数曲線はフィッシャー情報量が高い。フィッシャー情報行列がパラメータの評価で計算される場合(「観測されたフィッシャー情報行列」)、それは真の対数尤度曲面を2次項まで考慮したテイラー級数近似で置き換えることと同等である。[ 51 ] フィッシャー情報量の文脈における「情報」という言葉は、パラメータに関する情報を指す。例えば、推定値、十分性、推定量の分散特性などの情報である。 Cramér -Rao境界は 、フィッシャー情報の逆数がパラメータαの 任意の推定値の分散の下限値であることを示しています。
var [ α ^ ] ≥ 1 I ( α ) . {\displaystyle \operatorname {var} [{\hat {\alpha }}]\geq {\frac {1}{{\mathcal {I}}(\alpha )}}.}
パラメータαの推定値を推定できる精度は、対数尤度関数のフィッシャー情報量によって制限される。フィッシャー情報量は、分布のパラメータを推定する際に生じる最小誤差の尺度であり、パラメータに関する2つの対立仮説 を区別するために必要な実験の分解能の尺度とみなすことができる。[ 52 ]
N個の パラメータ がある場合
[ θ 1 θ 2 ⋮ θ N ] , {\displaystyle {\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{N}\end{bmatrix}},}
フィッシャー情報は、N × Nの 正半正 定値対称行列 、つまりフィッシャー情報行列の形を取り、その典型的な要素は次のとおりです。
( I ( θ ) ) i , j = E [ ∂ ln L ∂ θ i ⋅ ∂ ln L ∂ θ j ] . {\displaystyle ({\mathcal {I}}(\theta ))_{i,j}=\operatorname {E} \left[{\frac {\partial \ln {\mathcal {L}}}{\partial \theta _{i}}}\cdot {\frac {\partial \ln {\mathcal {L}}}{\partial \theta _{j}}}\right].}
一定の規則性条件下では、[ 50 ] フィッシャー情報行列は次のような形式でも表すことができ、計算にはより便利な場合が多い。
( I ( θ ) ) i , j = − E [ ∂ 2 ln L ∂ θ i ∂ θ j ] . {\displaystyle ({\mathcal {I}}(\theta ))_{i,j}=-\operatorname {E} \left[{\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{i}\,\partial \theta _{j}}}\right]\,.}
X 1 , ..., X N の iid ランダム変数を用いて、 X 1 , ..., X N の 側面を持つN 次元の「箱」を構築することができる。CostaとCover [ 53 ] は、(シャノン)微分エントロピーh ( X )は典型的な集合の体積(真のエントロピーに近い標本エントロピーを持つ)に関連し、フィッシャー情報はこの典型的な集合の面に関連していることを示す。
2つのパラメータ 形状パラメータα とβ でパラメータ化されたベータ分布を持つX 1 、…、X N 個 の独立確率変数について、 N個 のiid 観測値の結合対数尤度関数は次のようになります
ln L ( α , β ∣ X ) = ( α − 1 ) ∑ i = 1 N ln X i + ( β − 1 ) ∑ i = 1 N ln ( 1 − X i ) − N ln B ( α , β ) {\displaystyle \ln {\mathcal {L}}(\alpha ,\beta \mid X)=(\alpha -1)\sum _{i=1}^{N}\ln X_{i}+(\beta -1)\sum _{i=1}^{N}\ln(1-X_{i})-N\ln \mathrm {B} (\alpha ,\beta )}
したがって、 N iid 観測値ごとの結合対数尤度関数は
1 N ln L ( α , β ∣ X ) = ( α − 1 ) 1 N ∑ i = 1 N ln X i + ( β − 1 ) 1 N ∑ i = 1 N ln ( 1 − X i ) − ln B ( α , β ) . {\displaystyle {\frac {1}{N}}\ln {\mathcal {L}}(\alpha ,\beta \mid X)=(\alpha -1){\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}+(\beta -1){\frac {1}{N}}\sum _{i=1}^{N}\ln(1-X_{i})-\,\ln \mathrm {B} (\alpha ,\beta ).}
2パラメータの場合、フィッシャー情報量は4つの成分(対角成分2つと非対角成分2つ)を持ちます。フィッシャー情報行列は対称行列であるため、これらの非対角成分のうち1つは独立です。したがって、フィッシャー情報行列は3つの独立成分(対角成分2つと非対角成分1つ)を持ちます。
AryalとNadarajah [ 54 ] は4パラメータの場合のフィッシャーの情報行列を計算し、そこから2パラメータの場合の行列は次のように得られる。
− ∂ 2 ln L ( α , β ∣ X ) N ∂ α 2 = var [ ln ( X ) ] = ψ 1 ( α ) − ψ 1 ( α + β ) = I α , α = E [ − ∂ 2 ln L ( α , β ∣ X ) N ∂ α 2 ] = ln var G X {\displaystyle -{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \alpha ^{2}}}=\operatorname {var} [\ln(X)]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\alpha }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \alpha ^{2}}}\right]=\ln \operatorname {var} _{GX}} − ∂ 2 ln L ( α , β ∣ X ) N ∂ β 2 = var [ ln ( 1 − X ) ] = ψ 1 ( β ) − ψ 1 ( α + β ) = I β , β = E [ − ∂ 2 ln L ( α , β ∣ X ) N ∂ β 2 ] = ln var G ( 1 − X ) {\displaystyle -{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \beta ^{2}}}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\beta ,\beta }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \beta ^{2}}}\right]=\ln \operatorname {var} _{G(1-X)}} − ∂ 2 ln L ( α , β ∣ X ) N ∂ α ∂ β = cov [ ln X , ln ( 1 − X ) ] = − ψ 1 ( α + β ) = I α , β = E [ − ∂ 2 ln L ( α , β ∣ X ) N ∂ α ∂ β ] = ln cov G X , ( 1 − X ) {\displaystyle -{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \alpha \,\partial \beta }}=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\beta }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \alpha \,\partial \beta }}\right]=\ln \operatorname {cov} _{G{X,(1-X)}}}
フィッシャー情報行列は対称なので
I α , β = I β , α = ln cov G X , ( 1 − X ) {\displaystyle {\mathcal {I}}_{\alpha ,\beta }={\mathcal {I}}_{\beta ,\alpha }=\ln \operatorname {cov} _{G{X,(1-X)}}}
フィッシャー情報量成分は、対数幾何分散および対数幾何共分散に等しい。したがって、これらは、二ガンマ 関数の導関数として定義されるポリガンマ関数 の2番目である、ψ 1 (α) と表記される 三ガンマ 関数として表すことができる。
ψ 1 ( α ) = d 2 ln Γ ( α ) ∂ α 2 = ∂ ψ ( α ) ∂ α . {\displaystyle \psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{\partial \alpha ^{2}}}=\,{\frac {\partial \psi (\alpha )}{\partial \alpha }}.}
これらの導関数は§でも導出されます。対数尤度関数の 2つの未知パラメータとプロットもこのセクションで示されています。§ 幾何分散と共分散 には、フィッシャー情報行列の成分(形状パラメータαとβの関数としての対数幾何分散と対数幾何共分散)のプロットと詳細な説明が含まれています。§ 対数変換されたランダム変数のモーメントには、 対数変換されたランダム変数のモーメントの式が含まれています。フィッシャー情報成分との画像は§幾何分散 に示されています。 I α , α , I β , β {\displaystyle {\mathcal {I}}_{\alpha ,\alpha },{\mathcal {I}}_{\beta ,\beta }} I α , β {\displaystyle {\mathcal {I}}_{\alpha ,\beta }}
フィッシャー情報行列の行列式は興味深いものです(例えば、ジェフリーズの事前 確率の計算など)。フィッシャー情報行列の個々の要素の式から、ベータ分布に対するフィッシャー(対称)情報行列の行列式は次のようになります。
det ( I ( α , β ) ) = I α , α I β , β − I α , β I α , β = ( ψ 1 ( α ) − ψ 1 ( α + β ) ) ( ψ 1 ( β ) − ψ 1 ( α + β ) ) − ( − ψ 1 ( α + β ) ) ( − ψ 1 ( α + β ) ) = ψ 1 ( α ) ψ 1 ( β ) − ( ψ 1 ( α ) + ψ 1 ( β ) ) ψ 1 ( α + β ) lim α → 0 det ( I ( α , β ) ) = lim β → 0 det ( I ( α , β ) ) = ∞ lim α → ∞ det ( I ( α , β ) ) = lim β → ∞ det ( I ( α , β ) ) = 0 {\displaystyle {\begin{aligned}\det({\mathcal {I}}(\alpha ,\beta ))&={\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\alpha ,\beta }\\[4pt]&=(\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ))(\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ))-(-\psi _{1}(\alpha +\beta ))(-\psi _{1}(\alpha +\beta ))\\[4pt]&=\psi _{1}(\alpha )\psi _{1}(\beta )-(\psi _{1}(\alpha )+\psi _{1}(\beta ))\psi _{1}(\alpha +\beta )\\[4pt]\lim _{\alpha \to 0}\det({\mathcal {I}}(\alpha ,\beta ))&=\lim _{\beta \to 0}\det({\mathcal {I}}(\alpha ,\beta ))=\infty \\[4pt]\lim _{\alpha \to \infty }\det({\mathcal {I}}(\alpha ,\beta ))&=\lim _{\beta \to \infty }\det({\mathcal {I}}(\alpha ,\beta ))=0\end{aligned}}}
シルベスターの基準 (対角要素がすべて正であるかどうかをチェックする)から、2 つのパラメータの場合のフィッシャー情報行列は正定値であることがわかります(形状パラメータが正の α > 0 および β > 0であるという標準条件下で )。
4つのパラメータ α = β 対範囲 ( c − a ) および指数 α = β のフィッシャー情報I ( a , a )α = β のフィッシャー情報I ( α , a ) と範囲 ( c − a ) および指数α = β Y 1 、...、Y N が それぞれ4 つのパラメータ(指数α とβ 、およびa (分布範囲の最小値)、c (分布範囲の最大値))を持つベータ分布に従う独立したランダム変数である場合(「代替パラメータ化」、「4 つのパラメータ」のセクション)、確率密度関数は 次のようになります。
f ( y ; α , β , a , c ) = f ( x ; α , β ) c − a = ( y − a c − a ) α − 1 ( c − y c − a ) β − 1 ( c − a ) B ( α , β ) = ( y − a ) α − 1 ( c − y ) β − 1 ( c − a ) α + β − 1 B ( α , β ) . {\displaystyle f(y;\alpha ,\beta ,a,c)={\frac {f(x;\alpha ,\beta )}{c-a}}={\frac {\left({\frac {y-a}{c-a}}\right)^{\alpha -1}\left({\frac {c-y}{c-a}}\right)^{\beta -1}}{(c-a)B(\alpha ,\beta )}}={\frac {(y-a)^{\alpha -1}(c-y)^{\beta -1}}{(c-a)^{\alpha +\beta -1}B(\alpha ,\beta )}}.}
Ni iid 観測値 ごとの結合対数尤度関数は次の通りである。
1 N ln L ( α , β , a , c ∣ Y ) = α − 1 N ∑ i = 1 N ln ( Y i − a ) + β − 1 N ∑ i = 1 N ln ( c − Y i ) − ln B ( α , β ) − ( α + β − 1 ) ln ( c − a ) {\displaystyle {\frac {1}{N}}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)={\frac {\alpha -1}{N}}\sum _{i=1}^{N}\ln(Y_{i}-a)+{\frac {\beta -1}{N}}\sum _{i=1}^{N}\ln(c-Y_{i})-\ln \mathrm {B} (\alpha ,\beta )-(\alpha +\beta -1)\ln(c-a)}
4パラメータの場合、フィッシャー情報量は4×4=16成分を持つ。そのうち12個の非対角成分(合計4×4 - 対角成分4)を持つ。フィッシャー情報行列は対称行列であるため、これらの成分の半分(12/2=6)は独立である。したがって、フィッシャー情報行列は6個の独立した非対角成分と4個の対角成分、つまり10個の独立した成分を持つ。AryalとNadarajah [ 54 ]は 、 4パラメータの場合のフィッシャー情報行列を次のように計算した。
− 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α 2 = var [ ln ( X ) ] = ψ 1 ( α ) − ψ 1 ( α + β ) = I α , α = E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α 2 ] = ln ( v a r G X ) {\displaystyle -{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha ^{2}}}=\operatorname {var} [\ln(X)]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\alpha }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha ^{2}}}\right]=\ln(\operatorname {var_{GX}} )} − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ β 2 = var [ ln ( 1 − X ) ] = ψ 1 ( β ) − ψ 1 ( α + β ) = I β , β = E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ β 2 ] = ln ( v a r G ( 1 - X ) ) {\displaystyle -{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta ^{2}}}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\beta ,\beta }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta ^{2}}}\right]=\ln(\operatorname {var_{G(1-X)}} )} − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α ∂ β = cov [ ln X , ( 1 − X ) ] = − ψ 1 ( α + β ) = I α , β = E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α ∂ β ] = ln ( cov G X , ( 1 − X ) ) {\displaystyle -{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial \beta }}=\operatorname {cov} [\ln X,(1-X)]=-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\beta }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial \beta }}\right]=\ln(\operatorname {cov} _{G{X,(1-X)}})}
上記の式では、式 var[ln( X )] = ln(var GX )でY の代わりにXを使用しても エラーにはなりません 。 対数幾何分散と対数幾何共分散に関する式は、2 つのパラメーターX ~ Beta( α 、β ) パラメーター化の関数として出現します。これは、4 つのパラメーターの場合に指数 ( α 、β ) について偏微分を取ると、2 つのパラメーターの場合と同じ式が得られるためです。つまり、4 つのパラメーターのフィッシャー情報行列のこれらの項は、分布の範囲の最小値a と最大値c とは無関係です。対数尤度関数を指数α とβ について二重微分したときにゼロでない項は、ベータ関数の対数の 2 次微分 ln(B( α 、β )) のみです。この項は、分布の範囲の最小値 a と最大値c とは無関係です。 「最大尤度」、「2 つの未知のパラメータ」、「4 つの未知のパラメータ」というタイトルのセクションにもこの事実が示されています。
N個の i.id サンプルに対するフィッシャー情報量は、個々のフィッシャー情報量のN 倍である(式11.279、Cover and Thomas [ 28 ] の394ページ)。(AryalとNadarajah [ 54 ] は、 N = 1の単一観測値を用いてフィッシャー情報量の以下の成分を計算し、 N個 の観測値ごとの対数尤度の導関数を考慮した場合と同じ結果を導出した。さらに、以下ではAryalとNadarajahの誤った式を修正した。) I a , a {\displaystyle {\mathcal {I}}_{a,a}}
α > 2 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ a 2 ] = I a , a = β ( α + β − 1 ) ( α − 2 ) ( c − a ) 2 β > 2 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ c 2 ] = I c , c = α ( α + β − 1 ) ( β − 2 ) ( c − a ) 2 E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ a ∂ c ] = I a , c = ( α + β − 1 ) ( c − a ) 2 α > 1 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α ∂ a ] = I α , a = β ( α − 1 ) ( c − a ) E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ α ∂ c ] = I α , c = 1 ( c − a ) E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ β ∂ a ] = I β , a = − 1 ( c − a ) β > 1 : E [ − 1 N ∂ 2 ln L ( α , β , a , c ∣ Y ) ∂ β ∂ c ] = I β , c = − α ( β − 1 ) ( c − a ) {\displaystyle {\begin{aligned}\alpha >2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a^{2}}}\right]&={\mathcal {I}}_{a,a}={\frac {\beta (\alpha +\beta -1)}{(\alpha -2)(c-a)^{2}}}\\\beta >2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c^{2}}}\right]&={\mathcal {I}}_{c,c}={\frac {\alpha (\alpha +\beta -1)}{(\beta -2)(c-a)^{2}}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a\,\partial c}}\right]&={\mathcal {I}}_{a,c}={\frac {(\alpha +\beta -1)}{(c-a)^{2}}}\\\alpha >1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial a}}\right]&={\mathcal {I}}_{\alpha ,a}={\frac {\beta }{(\alpha -1)(c-a)}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial c}}\right]&={\mathcal {I}}_{\alpha ,c}={\frac {1}{(c-a)}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \,\partial a}}\right]&={\mathcal {I}}_{\beta ,a}=-{\frac {1}{(c-a)}}\\\beta >1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \,\partial c}}\right]&={\mathcal {I}}_{\beta ,c}=-{\frac {\alpha }{(\beta -1)(c-a)}}\end{aligned}}}
フィッシャー情報行列の下2つの対角成分は、パラメータa (分布の範囲の最小値)に関して: 、パラメータc (分布の範囲の最大値)に関して: は、それぞれ指数α > 2およびβ > 2に対してのみ定義されます。最小値a のフィッシャー情報行列成分は、指数αが2から上方に近づくにつれて無限大に近づき、最大値c のフィッシャー情報行列成分は、指数βが 2から上方に近づくにつれて無限大に近づきます。 I a , a {\displaystyle {\mathcal {I}}_{a,a}} I c , c {\displaystyle {\mathcal {I}}_{c,c}} I a , a {\displaystyle {\mathcal {I}}_{a,a}} I c , c {\displaystyle {\mathcal {I}}_{c,c}}
4パラメータの場合のフィッシャー情報行列は、最小値a と最大値c の個々の値には依存せず、範囲全体(c − a )のみに依存します。さらに、範囲( c − a )に依存するフィッシャー情報行列の成分は、その逆数(または逆数の2乗)のみに依存するため、範囲( c − a )が増加するとフィッシャー情報量は減少します。
添付の画像は、フィッシャー情報量成分とを示しています。フィッシャー情報量成分との画像は、§ 幾何分散 に示されています 。これらのフィッシャー情報量成分はすべて盆地のように見え、盆地の「壁」はパラメータの低い値に位置しています。 I a , a {\displaystyle {\mathcal {I}}_{a,a}} I α , a {\displaystyle {\mathcal {I}}_{\alpha ,a}} I α , α {\displaystyle {\mathcal {I}}_{\alpha ,\alpha }} I β , β {\displaystyle {\mathcal {I}}_{\beta ,\beta }}
次の 4 パラメータベータ分布のフィッシャー情報量成分は、2 パラメータX ~ Beta(α, β)で表現できます。これは、変換された比率 ((1 − X )/ X ) とその鏡像 ( X /(1 − X )) の期待値であり、範囲 ( c − a ) でスケールされており、解釈に役立つ可能性があります。
I α , a = E [ 1 − X X ] c − a = β ( α − 1 ) ( c − a ) if α > 1 {\displaystyle {\mathcal {I}}_{\alpha ,a}={\frac {\operatorname {E} \left[{\frac {1-X}{X}}\right]}{c-a}}={\frac {\beta }{(\alpha -1)(c-a)}}{\text{ if }}\alpha >1} I β , c = − E [ X 1 − X ] c − a = − α ( β − 1 ) ( c − a ) if β > 1 {\displaystyle {\mathcal {I}}_{\beta ,c}=-{\frac {\operatorname {E} \left[{\frac {X}{1-X}}\right]}{c-a}}=-{\frac {\alpha }{(\beta -1)(c-a)}}{\text{ if }}\beta >1}
これらは、「逆ベータ分布」またはベータプライム分布 (第2種ベータ分布またはピアソンのタイプVI とも呼ばれる)[ 1 ] とその鏡像の期待値であり、範囲(c − a )でスケーリングされています。
また、以下のフィッシャー情報成分は、調和(1/X)分散または比率変換変数((1-X)/X)に基づく分散で次のように表現できます。
α > 2 : I a , a = var [ 1 X ] ( α − 1 c − a ) 2 = var [ 1 − X X ] ( α − 1 c − a ) 2 = β ( α + β − 1 ) ( α − 2 ) ( c − a ) 2 β > 2 : I c , c = var [ 1 1 − X ] ( β − 1 c − a ) 2 = var [ X 1 − X ] ( β − 1 c − a ) 2 = α ( α + β − 1 ) ( β − 2 ) ( c − a ) 2 I a , c = cov [ 1 X , 1 1 − X ] ( α − 1 ) ( β − 1 ) ( c − a ) 2 = cov [ 1 − X X , X 1 − X ] ( α − 1 ) ( β − 1 ) ( c − a ) 2 = ( α + β − 1 ) ( c − a ) 2 {\displaystyle {\begin{aligned}\alpha >2:\quad {\mathcal {I}}_{a,a}&=\operatorname {var} \left[{\frac {1}{X}}\right]\left({\frac {\alpha -1}{c-a}}\right)^{2}=\operatorname {var} \left[{\frac {1-X}{X}}\right]\left({\frac {\alpha -1}{c-a}}\right)^{2}={\frac {\beta (\alpha +\beta -1)}{(\alpha -2)(c-a)^{2}}}\\\beta >2:\quad {\mathcal {I}}_{c,c}&=\operatorname {var} \left[{\frac {1}{1-X}}\right]\left({\frac {\beta -1}{c-a}}\right)^{2}=\operatorname {var} \left[{\frac {X}{1-X}}\right]\left({\frac {\beta -1}{c-a}}\right)^{2}={\frac {\alpha (\alpha +\beta -1)}{(\beta -2)(c-a)^{2}}}\\{\mathcal {I}}_{a,c}&=\operatorname {cov} \left[{\frac {1}{X}},{\frac {1}{1-X}}\right]{\frac {(\alpha -1)(\beta -1)}{(c-a)^{2}}}=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {X}{1-X}}\right]{\frac {(\alpha -1)(\beta -1)}{(c-a)^{2}}}={\frac {(\alpha +\beta -1)}{(c-a)^{2}}}\end{aligned}}}
これらの期待値については、「線形変換された、積および反転されたランダム変数のモーメント」セクションを参照してください。
フィッシャーの情報行列の行列式は興味深いものです(例えば、ジェフリーズの事前 確率の計算など)。個々の要素の式から、4つのパラメータを持つベータ分布のフィッシャーの(対称)情報行列の行列式は次のようになります。
det ( I ( α , β , a , c ) ) = − I a , c 2 I α , a I α , β + I a , a I a , c I α , c I α , β + I a , c 2 I α , β 2 − I a , a I c , c I α , β 2 − I a , c I α , a I α , c I β , a + I a , c 2 I α , α I β , a + 2 I c , c I α , a I α , β I β , a − 2 I a , c I α , c I α , β I β , a + I α , c 2 I β , a 2 − I c , c I α , α I β , a 2 + I a , c I α , a 2 I β , c − I a , a I a , c I α , α I β , c − I a , c I α , a I α , β I β , c + I a , a I α , c I α , β I β , c − I α , a I α , c I β , a I β , c + I a , c I α , α I β , a I β , c − I c , c I α , a 2 I β , β + 2 I a , c I α , a I α , c I β , β − I a , a I α , c 2 I β , β − I a , c 2 I α , α I β , β + I a , a I c , c I α , α I β , β if α , β > 2 {\displaystyle {\begin{aligned}\det({\mathcal {I}}(\alpha ,\beta ,a,c))={}&-{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }+{\mathcal {I}}_{a,a}{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }+{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\beta }^{2}-{\mathcal {I}}_{a,a}{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\beta }^{2}\\&{}-{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,a}+{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}+2{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,a}\\&{}-2{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,a}+{\mathcal {I}}_{\alpha ,c}^{2}{\mathcal {I}}_{\beta ,a}^{2}-{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}^{2}+{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}^{2}{\mathcal {I}}_{\beta ,c}\\&{}-{\mathcal {I}}_{a,a}{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,c}-{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,c}+{\mathcal {I}}_{a,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,c}\\&{}-{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,a}{\mathcal {I}}_{\beta ,c}+{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}{\mathcal {I}}_{\beta ,c}-{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,a}^{2}{\mathcal {I}}_{\beta ,\beta }\\&{}+2{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{a,a}{\mathcal {I}}_{\alpha ,c}^{2}{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }+{\mathcal {I}}_{a,a}{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }{\text{ if }}\alpha ,\beta >2\end{aligned}}}
シルベスターの基準 (対角要素がすべて正であるかどうかを確認)を用い、対角成分とがα=2およびβ=2で特異点を 持つことから、4パラメータの場合のフィッシャー情報行列はα>2およびβ>2に対して正定値 となる。α>2およびβ>2の場合、ベータ分布は(対称または非対称の)ベル型となるため、フィッシャー情報行列は、変曲点がモードの両側に位置するベル型(対称または非対称)ベータ分布に対してのみ正定値となる。したがって、4パラメータベータ分布族に属する重要な分布、例えば放物線分布(Beta(2,2,a,c))や一様分布 (Beta(1,1,a,c))は、4パラメータの場合に爆発する(無限大に近づく)フィッシャー情報量成分( )を持ちます(ただし、これらのフィッシャー情報量成分はすべて2パラメータの場合に定義されています)。4パラメータウィグナー半円分布 (Beta(3/2,3/2, a , c ))とアークサイン分布 (Beta(1/2,1/2, a , c ))は、4パラメータの場合に負のフィッシャー情報量行列式を持ちます。 I a , a {\displaystyle {\mathcal {I}}_{a,a}} I c , c {\displaystyle {\mathcal {I}}_{c,c}} I a , a , I c , c , I α , a , I β , c {\displaystyle {\mathcal {I}}_{a,a},{\mathcal {I}}_{c,c},{\mathcal {I}}_{\alpha ,a},{\mathcal {I}}_{\beta ,c}}
ベイズ推論 B e t a ( 1 , 1 ) {\displaystyle Beta(1,1)} :一様分布 確率密度は、ベイズ推論における事前確率の無知を表すためにトーマス・ベイズによって提案され ました ベイズ推論 においてベータ分布が用いられるのは、二項分布 (ベルヌーイ 分布を含む)と幾何分布 の共役事前確率分布 族を提供するからである。ベータ分布の定義域は確率として捉えることができ、実際、ベータ分布は確率値p の分布を記述するためにしばしば用いられる。[ 24 ]
P ( p ; α , β ) = p α − 1 ( 1 − p ) β − 1 B ( α , β ) . {\displaystyle P(p;\alpha ,\beta )={\frac {p^{\alpha -1}(1-p)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}.}
ベイズ推論において事前パラメータ値の無知を表す事前確率として使用されるベータ分布の例としては、Beta(1,1)、Beta(0,0)、Beta(1/2,1/2) などがあります。
継承のルール ベータ分布の古典的な応用例は、18世紀にピエール・シモン・ラプラス [ 55 ] が日の出問題 を扱う過程で導入した継承の法則 である。これは、確率 p でn 回 の条件付き独立 ベルヌーイ試行 でs 回の成功があった場合 、 次の試行での期待値の推定値は であると述べている。この推定値はp についての事後分布の期待値、すなわち Beta( s +1, n − s +1) であり、 p について一様な事前確率(すなわち Beta(1, 1)) を仮定し、p が n 回の試行で s 回の 成功を生成したことを観察した場合にベイズの定理 によって与えられる。ラプラスの継承の法則は著名な科学者から批判されてきた。RT Cox は、ラプラスによる日の出問題 への継承の法則の適用( [ 56 ] p. 89) を「原理の適切な使用の茶番」と評した。ケインズは([ 57 ] 第30章、382ページ)「実にこれは愚かな定理であり、これを受け入れること自体が信用できない」と述べている。カール・ピアソン[ 58 ] は、n回の試行でn回の成功があった後、次の( n + 1)回の試行が成功する 確率は わずか50%であることを示したが、これはジェフリーズのような科学者によって低すぎると考えられ、提案された科学法則を検証するための実験という科学的プロセスの代表としては受け入れられない。ジェフリーズ([ 59 ] 128ページ)(C・D・ブロード [ 60 ] の功績)が指摘するように、ラプラスの連続則は、次の試行で成功確率((n+1)/(n+2))が高くなる一方で、さらに(n +1)回のサンプルが同程度の大きさで成功する確率は中程度(50%)に過ぎない。パークス [ 61 ] が指摘するように、s + 1 n + 2 {\displaystyle {\frac {s+1}{n+2}}} 「継承の法則自体は受け入れがたいものである。この法則は次の試行に確率を割り当てるが、これは実際に観測された連なりが平均的な連なりであり、常に平均的な連なりの終わりにいるという仮定を意味する。平均的な連なりの途中にいると仮定する方が合理的であると思われるだろう。明らかに、両方の確率が合理的な信念と一致するためには、より高い値が必要である。」ラプラスの継承の法則のこれらの問題が、ハルデイン、パークス、ジェフリーズらに、他の形式の事前確率を模索する動機を与えた(次の§ ベイズ推論 を参照)。ジェインズによれば、[ 52 ] 継承の法則の主な問題は、s=0またはs=nの場合には有効ではないということである(その有効性の分析については、 継承の法則を参照)。
ベイズ・ラプラス事前確率(ベータ(1,1))ベータ分布は、Beta(1,1)、すなわち分布の定義域内のすべての値が等しい密度を持つ一様確率密度において、最大微分エントロピーを達成します。この一様分布Beta(1,1)は、 トーマス・ベイズ [ 62 ] によって(「多大な疑念を抱きつつ」)事前確率分布として提案され、正しい事前分布に関する無知を表明しました。この事前分布は、ピエール=シモン・ラプラスによって(彼の著作から判断すると、ほとんど疑念を抱くことなく [ 55 ] )採用され、20世紀前半の文献では「ベイズ=ラプラス則」または「逆確率 」の「ラプラス則」としても知られています。19世紀後半から20世紀初頭にかけて、科学者たちは、一様で「等しい」確率密度という仮定は、実際の関数(例えば、線形スケールと対数スケールのどちらが最適か)と使用されるパラメータ化に依存することを認識しました。特に、有限サポートを持つ分布の端点付近(例えば、初期サポートがx = 0である分布の場合、x = 0付近)の挙動には特別な注意が必要でした。ケインズ([ 57 ] Ch.XXX、p.381)は、0と1の間のすべての値が等確率であるというベイズの一様事前確率(Beta(1,1))の使用を次のように批判しました。「したがって、経験からわかることは、0と1の近傍において、統計的比率が非常に顕著に集まっていること、つまり、0の近傍における正の理論と正の性質間の相関の統計的比率、そして1の近傍における負の理論と負の性質間の相関の統計的比率が顕著に集まっていることです。」
ハルデーンの事前確率(Beta(0,0))B e t a ( 0 , 0 ) {\displaystyle Beta(0,0)} : ハルデン事前確率は、事前情報について全く無知であることを表します。つまり、実験が成功か失敗かという物理的な可能性さえも不明です。α, β → 0 のとき、ベータ分布は2点ベルヌーイ分布 に近づき、すべての確率密度が両端、つまり0と1に集中し、その間の値は存在しません。コイントス:コインの片面が0、もう片面が1です。ベータ(0,0)分布はJBSハルデイン [ 63 ]によって提案され 、 完全な不確実性を表す事前確率はp −1 (1− p ) −1 に比例するべきであると示唆した。関数p −1 (1− p ) −1 は 、両方の形状パラメータが 0 に近づくにつれて、ベータ分布の分子の極限と見なすことができます (α、β → 0)。ベータ関数 (ベータ分布の分母) は、両方のパラメータが 0 に近づくにつれて (α、β → 0)、無限大に近づきます。したがって、ベータ関数で割ったp −1 (1− p ) −1は、α、β → 0 として、両端の 0 と 1 で確率が 1/2 で等しく、中間の確率がない 2 点 ベルヌーイ分布 に近づきます。コインを投げるようなものです。コインの片方の面が 0 でもう一方の面が 1 になります。ハルデン事前確率分布 Beta(0,0) は、両端の特異点のために積分 (0 から 1) が 1 に厳密に収束しないため、「不適切な事前 分布」です。ただし、サンプル サイズが非常に小さい場合を除き、事後確率を計算する場合はこれが問題になりません。さらに、ゼルナー[ 64 ] は、対数オッズ 尺度(ロジット 変換)では、ハルデイン事前分布が一様平坦事前分布であることを指摘している。ロジット 変換された変数ln( p /1− p )(定義域(−∞,∞))上の一様事前確率が定義域[0,1]上のハルデイン事前分布と等価であるという事実は 、ハロルド・ジェフリーズ が著書『確率論』初版(1939年)で指摘した( [ 59 ] p.123)。ジェフリーズは次のように書いている。「確かに、ベイズ・ラプラス則を極限まで推し進めると、誰の考え方とも一致しない結果に至ります。(ハルデイン)則dx / ( x (1− x ))は、反対方向に行き過ぎています。この則は、ある特性に関してあるサンプルがあるタイプである場合、母集団全体がそのタイプである確率が1であるという結論に至ります。」 「均一」はパラメータ化に依存するという事実から、ジェフリーズは異なるパラメータ化の下で不変となる事前分布の形式を模索することになった。 log ( p / ( 1 − p ) ) {\displaystyle \log(p/(1-p))}
ジェフリーズの事前確率(ベルヌーイ分布または二項分布の場合はBeta(1/2,1/2))ベータ分布のジェフリーズ事前確率: フィッシャーの情報 行列の行列式の平方根:形状パラメータα、βの三ガンマ関数 ψ 1 の関数である。det ( I ( α , β ) ) = ψ 1 ( α ) ψ 1 ( β ) − ( ψ 1 ( α ) + ψ 1 ( β ) ) ψ 1 ( α + β ) {\displaystyle \scriptstyle {\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}={\sqrt {\psi _{1}(\alpha )\psi _{1}(\beta )-(\psi _{1}(\alpha )+\psi _{1}(\beta ))\psi _{1}(\alpha +\beta )}}} 成功 = "s"、失敗 = "f" のサンプルにおける、s /( s + f ) = 1/2、s + f = {3,10,50}の事後ベータ密度。3つの異なる事前確率関数(Haldane (Beta(0,0)、Jeffreys (Beta(1/2,1/2))、Bayes (Beta(1,1)))に基づく)に基づく。この図は、サンプルサイズが50の場合、事後分布の事前分布にほとんど差がないことを示しています(p = 1/2付近でより顕著なピークが見られます)。非常に小さなサンプルサイズでは、有意な差が現れます(サンプルサイズが3の場合、分布はより平坦になります)。 成功 = "s"、失敗 = "f" のサンプルに対する、s /( s + f ) = 1/4、s + f ∈ {3,10,50}の事後ベータ密度。3つの異なる事前確率関数、Haldane (Beta(0,0)、Jeffreys (Beta(1/2,1/2))、Bayes (Beta(1,1))に基づく。この図は、サンプルサイズが50の場合、事後分布の事前分布にほとんど差がないことを示しています(p = 1/4付近でより顕著なピークが見られます)。非常に小さなサンプルサイズでは有意差が現れます(サンプルサイズが3の退化したケースでは非常に歪んだ分布です。この退化したありそうもないケースでは、Haldane事前分布は逆「J」字型になり、最頻値はp = 1/4 ではなくp = 0になります)。十分な サンプリングデータ がある場合、Bayes (Beta(1,1))、Jeffreysの3つの事前分布は、 (Beta(1/2,1/2))とHaldane(Beta(0,0))は同様の事後 確率 密度を生成するはずです。 成功 = s 、失敗 = f のs /( s + f ) = 1/4、s + f ∈ {4,12,40} のサンプルの事後ベータ密度。3つの異なる事前確率関数(Haldane (Beta(0,0)、Jeffreys (Beta(1/2,1/2))、Bayes (Beta(1,1)))に基づく)に基づく。この図は、サンプルサイズが40の場合、事後分布の事前分布にほとんど差がない(p = 1/4付近でより顕著なピークを示す)ことを示している。非常に小さなサンプルサイズでは、有意な差が見られる。 Harold Jeffreys [ 59 ] [ 65 ] は、再パラメータ化に対して不変で あるべき、フィッシャーの情報 行列の行列式 の平方根に比例する、情報を持たない事前 確率尺度の使用を提案した。ベルヌーイ分布 の場合、これは次のように示される。確率p ∈ [0, 1] で「表」になり、確率 1 − p で「裏」になるコインの場合、与えられた (H,T) ∈ {(0,1), (1,0)} に対して、確率はp H (1 − p ) T である。T = 1 − H なので 、ベルヌーイ分布は p H (1 − p ) 1 − H である。pを 唯一のパラメータとすると、ベルヌーイ分布の対数尤度は次のようになる。
ln L ( p ∣ H ) = H ln p + ( 1 − H ) ln ( 1 − p ) . {\displaystyle \ln {\mathcal {L}}(p\mid H)=H\ln p+(1-H)\ln(1-p).}
フィッシャー情報行列には 1 つのコンポーネントしかありません (パラメーターがp のみであるためスカラーです)。したがって、次のようになります。
I ( p ) = E [ ( d d p ln L ( p ∣ H ) ) 2 ] = E [ ( H p − 1 − H 1 − p ) 2 ] = p 1 ( 1 − p ) 0 ( 1 p − 0 1 − p ) 2 + p 0 ( 1 − p ) 1 ( 0 p − 1 1 − p ) 2 = 1 p ( 1 − p ) . {\displaystyle {\begin{aligned}{\sqrt {{\mathcal {I}}(p)}}&={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{dp}}\ln {\mathcal {L}}(p\mid H)\right)^{2}\right]}}\\[6pt]&={\sqrt {\operatorname {E} \!\left[\left({\frac {H}{p}}-{\frac {1-H}{1-p}}\right)^{2}\right]}}\\[6pt]&={\sqrt {p^{1}(1-p)^{0}\left({\frac {1}{p}}-{\frac {0}{1-p}}\right)^{2}+p^{0}(1-p)^{1}\left({\frac {0}{p}}-{\frac {1}{1-p}}\right)^{2}}}\\&={\frac {1}{\sqrt {p(1-p)}}}.\end{aligned}}}
同様に、n回 のベルヌーイ試行 を伴う二項分布 の場合、
I ( p ) = n p ( 1 − p ) . {\displaystyle {\sqrt {{\mathcal {I}}(p)}}={\sqrt {\frac {n}{p(1-p)}}}.}
したがって、ベルヌーイ 分布、二項分布 の場合、ジェフリーズ事前 分布はに比例し、これはドメイン変数x = p 、形状パラメータ α = β = 1/2 を持つベータ分布、つまり逆正弦分布 に比例します。 1 p ( 1 − p ) {\displaystyle \scriptstyle {\frac {1}{\sqrt {p(1-p)}}}}
Beta ( 1 2 , 1 2 ) = 1 π p ( 1 − p ) . {\displaystyle \operatorname {Beta} ({\tfrac {1}{2}},{\tfrac {1}{2}})={\frac {1}{\pi {\sqrt {p(1-p)}}}}.}
次のセクションでは、正規化定数が事後確率のベイズの定理で打ち消されるため、ジェフリーズの事前分布の正規化定数は最終結果には無関係であることを示します。したがって、Beta(1/2,1/2) は、ベルヌーイ分布と二項分布の両方のジェフリーズの事前分布として使用されます。次のセクションで示すように、この式をベイズの定理 の事前確率と尤度を掛けたものとして使用すると、事後確率はベータ分布になります。ただし、ジェフリーズの事前分布はベルヌーイ分布と二項分布の場合は に比例しますが、ベータ分布の場合は に比例しないことを認識することが重要です。ベータ分布のジェフリーズの事前分布は、ベータ分布のフィッシャー情報量の行列式で与えられます。これは、§ フィッシャー情報行列に示すように、形状パラメータ α と β の 三ガンマ関数 ψ 1 の関数であり、次のように表されます。 1 p ( 1 − p ) {\textstyle {\frac {1}{\sqrt {p(1-p)}}}}
det ( I ( α , β ) ) = ψ 1 ( α ) ψ 1 ( β ) − ( ψ 1 ( α ) + ψ 1 ( β ) ) ψ 1 ( α + β ) lim α → 0 det ( I ( α , β ) ) = lim β → 0 det ( I ( α , β ) ) = ∞ lim α → ∞ det ( I ( α , β ) ) = lim β → ∞ det ( I ( α , β ) ) = 0 {\displaystyle {\begin{aligned}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&={\sqrt {\psi _{1}(\alpha )\psi _{1}(\beta )-(\psi _{1}(\alpha )+\psi _{1}(\beta ))\psi _{1}(\alpha +\beta )}}\\\lim _{\alpha \to 0}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&=\lim _{\beta \to 0}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}=\infty \\\lim _{\alpha \to \infty }{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&=\lim _{\beta \to \infty }{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}=0\end{aligned}}}
前述のように、ベルヌーイ分布と二項分布の Jeffreys 事前分布は、ベルヌーイ分布と二項分布のパラメータp の関数として盆地のように見える1 次元曲線である 逆正弦分布 Beta(1/2,1/2)に比例します。盆地の壁は、p が p → 0 およびp → 1の端で特異点に近づくことによって形成され、Beta(1/2,1/2) は無限大に近づきます。ベータ分布の Jeffreys 事前分布は、ベータ分布の形状パラメータ α と β の関数として、2 つの壁のみが角 α = β = 0 で交わり、他の 2 つの壁がない、盆地のように見える2 次元表面 (3 次元空間に埋め込まれた) です。この 2 次元表面の 2 つの隣接する壁は、形状パラメータ α と β が α、β → 0 で (トリガンマ関数の) 特異点に近づくことで形成されます。α、β → ∞ では壁はありません。これは、この場合、ベータ分布のフィッシャーの情報行列の行列式が 0 に近づくためです。
次のセクションでは、ジェフリーズの事前確率により、ハルデン事前確率とベイズ事前確率の事後確率結果の中間の事後確率 (二項尤度関数を乗算した場合) が得られることが示されます。
ジェフリーズの事前分布は解析的に得るのが難しい場合があり、場合によっては存在しない(非対称三角分布のような単純な分布関数でさえ)。バーガー、ベルナルド、サンは2009年の論文 [ 66 ] で、 (ジェフリーズの事前分布とは異なり)非対称三角分布 に対して存在する参照事前確率分布を定義した。彼らは参照事前分布の閉形式の表現を得ることはできないが、数値計算ではそれが(適切な)事前分布によってほぼ完全に適合することが示されている。
Beta ( 1 2 , 1 2 ) ∼ 1 θ ( 1 − θ ) {\displaystyle \operatorname {Beta} ({\tfrac {1}{2}},{\tfrac {1}{2}})\sim {\frac {1}{\sqrt {\theta (1-\theta )}}}}
ここで、 θ はサポート [0, 1] を持つ非対称三角分布の頂点変数です (これは、Wikipedia の三角分布 の記事にある次のパラメータ値に対応します: 頂点c = θ 、左端a = 0、右端b = 1)。 Berger らはまた、Beta(1/2,1/2) が非対称三角分布の正確な Berger–Bernardo–Sun 参照事前分布である可能性があるという経験的議論も行っています。 そのため、Beta(1/2,1/2) はベルヌーイ分布と二項分布の Jeffreys 事前分布であるだけでなく、プロジェクト管理と PERT分析 でプロジェクトタスクのコストと期間を説明するために使用される分布である非対称三角分布 (Jeffreys 事前分布は存在しない) の Berger–Bernardo–Sun 参照事前分布でもあると思われます。
クラークとバロン[ 67 ] は、連続正事前分布の中で、ジェフリーズ事前分布(存在する場合)は、サイズnのサンプルとパラメータ間のシャノン相互情報量を漸近的に最大化し、したがって ジェフリーズ事前分布は最も情報量の少ない事前分布(シャノン情報量として測定される情報量)であることを証明している。この証明は、 iid 乱数 に対する確率密度関数間のカルバック・ライブラー距離 の検討に基づいている。
異なる事前確率の選択が事後ベータ分布に与える影響 ランダム変数X の母集団からサンプルを抽出し、n 回の ベルヌーイ試行 n = s + fで s 回の 成功とf回 の失敗を得た場合、x = p (以下の式の表記 x = p は、ドメイン x が二項分布のパラメーター p の値を表すことを強調します) を 与え られ た パラメーター s およびfの尤度 関数は次の二項分布 になります。
L ( s , f ∣ x = p ) = ( s + f s ) x s ( 1 − x ) f = ( n s ) x s ( 1 − x ) n − s . {\displaystyle {\mathcal {L}}(s,f\mid x=p)={s+f \choose s}x^{s}(1-x)^{f}={n \choose s}x^{s}(1-x)^{n-s}.}
事前確率 情報に関する信念が、パラメータα Prior とβ Prior を 持つベータ分布によって適切に近似される場合、次のようになります。
PriorProbability ( x = p ; α Prior , β Prior ) = x α Prior − 1 ( 1 − x ) β Prior − 1 B ( α Prior , β Prior ) {\displaystyle {\operatorname {PriorProbability} }(x=p;\alpha \operatorname {Prior} ,\beta \operatorname {Prior} )={\frac {x^{\alpha \operatorname {Prior} -1}(1-x)^{\beta \operatorname {Prior} -1}}{\mathrm {B} (\alpha \operatorname {Prior} ,\beta \operatorname {Prior} )}}}
連続事象空間におけるベイズの定理 によれば、事後確率密度は、 事前確率 と尤度関数(証拠s およびf = n − s が与えられた場合)の積で与えられ、次のように曲線の下の面積が 1 になるように正規化されます。
posterior probability density ( x = p ∣ s , n − s ) = priorprobabilitydensity ( x = p ; α prior , β prior ) L ( s , f ∣ x = p ) ∫ 0 1 prior probability density ( x = p ; α prior , β prior ) L ( s , f ∣ x = p ) d x = ( n s ) x s + α prior − 1 ( 1 − x ) n − s + β prior − 1 / B ( α prior , β prior ) ∫ 0 1 ( ( n s ) x s + α prior − 1 ( 1 − x ) n − s + β prior − 1 / B ( α prior , β prior ) ) d x = x s + α prior − 1 ( 1 − x ) n − s + β prior − 1 ∫ 0 1 ( x s + α prior − 1 ( 1 − x ) n − s + β prior − 1 ) d x = x s + α prior − 1 ( 1 − x ) n − s + β prior − 1 B ( s + α prior , n − s + β prior ) . {\displaystyle {\begin{aligned}&{\text{posterior probability density}}(x=p\mid s,n-s)\\[6pt]={}&{\frac {\operatorname {priorprobabilitydensity} (x=p;\alpha \operatorname {prior} ,\beta \operatorname {prior} ){\mathcal {L}}(s,f\mid x=p)}{\int _{0}^{1}{\text{prior probability density}}(x=p;\alpha \operatorname {prior} ,\beta \operatorname {prior} ){\mathcal {L}}(s,f\mid x=p)\,dx}}\\[6pt]={}&{\frac {{n \choose s}x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}/\mathrm {B} (\alpha \operatorname {prior} ,\beta \operatorname {prior} )}{\int _{0}^{1}\left({n \choose s}x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}/\mathrm {B} (\alpha \operatorname {prior} ,\beta \operatorname {prior} )\right)\,dx}}\\[6pt]={}&{\frac {x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}}{\int _{0}^{1}\left(x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}\right)\,dx}}\\[6pt]={}&{\frac {x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}}{\mathrm {B} (s+\alpha \operatorname {prior} ,n-s+\beta \operatorname {prior} )}}.\end{aligned}}}
二項係数
( s + f s ) = ( n s ) = ( s + f ) ! s ! f ! = n ! s ! ( n − s ) ! {\displaystyle {s+f \choose s}={n \choose s}={\frac {(s+f)!}{s!f!}}={\frac {n!}{s!(n-s)!}}}
は事後確率の分子と分母の両方に現れ、積分変数x に依存しないため打ち消され、最終結果には無関係です。同様に、事前確率の正規化係数であるベータ関数 B(αPrior,βPrior) も打ち消され、最終結果には無関係です。正規化されていない事前確率を用いても同じ事後確率が得られます。
x α prior − 1 ( 1 − x ) β prior − 1 {\displaystyle x^{\alpha \operatorname {prior} -1}(1-x)^{\beta \operatorname {prior} -1}}
正規化係数がすべて打ち消されるためです。そのため、正規化定数が打ち消されるため、複数の著者(ジェフリーズ自身を含む)は、正規化されていない事前式を使用しています。事後確率の分子は、事前確率と尤度関数の(正規化されていない)積となり、分母はその積分値(0から1)となります。分母のベータ関数B( s + α Prior, n − s + β Prior)は、事後確率全体が1に積分されることを保証するための正規化定数として現れます。
成功回数と総試行回数の比s / nは二項分布の場合に 十分な統計量 であり、次の結果に関連します。
ベイズの 事前確率(Beta(1,1))の場合、事後確率は次のようになります。
posteriorprobability ( p = x ∣ s , f ) = x s ( 1 − x ) n − s B ( s + 1 , n − s + 1 ) , with mean = s + 1 n + 2 , (and mode = s n if 0 < s < n ) . {\displaystyle \operatorname {posteriorprobability} (p=x\mid s,f)={\frac {x^{s}(1-x)^{n-s}}{\mathrm {B} (s+1,n-s+1)}},{\text{ with mean }}={\frac {s+1}{n+2}},{\text{ (and mode}}={\frac {s}{n}}{\text{ if }}0<s<n).}
ジェフリーズの 事前確率(Beta(1/2,1/2))の場合、事後確率は次のようになります。
posteriorprobability ( p = x ∣ s , f ) = x s − 1 2 ( 1 − x ) n − s − 1 2 B ( s + 1 2 , n − s + 1 2 ) , with mean = s + 1 2 n + 1 , (and mode = s − 1 2 n − 1 if 1 2 < s < n − 1 2 ) . {\displaystyle \operatorname {posteriorprobability} (p=x\mid s,f)={x^{s-{\tfrac {1}{2}}}(1-x)^{n-s-{\frac {1}{2}}} \over \mathrm {B} (s+{\tfrac {1}{2}},n-s+{\tfrac {1}{2}})},{\text{ with mean}}={\frac {s+{\tfrac {1}{2}}}{n+1}},{\text{ (and mode}}={\frac {s-{\tfrac {1}{2}}}{n-1}}{\text{ if }}{\tfrac {1}{2}}<s<n-{\tfrac {1}{2}}).}
ハルデン 事前確率(Beta(0,0))の場合、事後確率は次のようになります。
posteriorprobability ( p = x ∣ s , f ) = x s − 1 ( 1 − x ) n − s − 1 B ( s , n − s ) , with mean = s n , (and mode = s − 1 n − 2 if 1 < s < n − 1 ) . {\displaystyle \operatorname {posteriorprobability} (p=x\mid s,f)={\frac {x^{s-1}(1-x)^{n-s-1}}{\mathrm {B} (s,n-s)}},{\text{ with mean}}={\frac {s}{n}},{\text{ (and mode}}={\frac {s-1}{n-2}}{\text{ if }}1<s<n-1).}
上記の式から、s / n = 1/2の場合、上記3つの事前確率はすべて、 事後確率の平均 = 最頻値 = 1/2で同じ位置になります。s / n < 1/2の場合、 以下 の事前確率を用いた事後確率の平均は、ベイズ事前確率の平均 > ジェフリーズ事前確率の平均 > ハルデン事前確率の平均となります。s / n > 1/2の場合、これら の不等式 の順序は逆転し、ハルデン事前確率が最大の事後平均となります。ハルデン 事前確率Beta(0,0)は、平均 (「次の」試行における成功確率の期待値)が成功回数と総試行回数の比s / n に等しい事後確率密度となります。したがって、ハルデン事前確率は、次の試行における期待値が最大尤度に等しい事後確率となります。ベイズ事前確率Beta(1,1)は、 s / n (最大尤度) の比と同一のモード を持つ事後確率密度をもたらします。
試行の100%が成功した場合(s = n) 、ベイズ 事前確率Beta(1,1)は、事後期待値が継承則(n + 1)/(n + 2)に等しくなります。一方、ハルデン事前確率Beta(0,0)は、事後期待値が1(次の試行で絶対的に成功する確率)になります。ジェフリーズ事前確率は、事後期待値が(n + 1/2)/(n + 1)に等しくなります。パークス[ 61 ] (303ページ)は次のように指摘している。「これは新しい継続のルールを提供し、取るべき『合理的な』立場を表現している。つまり、n回の成功が途切れることなく続いた後、次の試行の確率は平均的な実行のおよそ半分を終えたという仮定、つまり(2n +2)回の試行に1回の失敗が予想されるという仮定に等しいと仮定する。ベイズ・ラプラス則は、平均的な実行のほぼ終わり、つまり(n + 2)回の試行に1回の失敗が予想されることを示唆している。この比較は、『合理性』の観点から、明らかに新しい結果(現在ジェフリーズ事前分布と呼ばれているもの)に有利である。」
逆に、試行の100%が失敗に終わった場合(s = 0)、ベイズ 事前確率Beta(1,1)は次の試行における成功の事後期待値が1/( n + 2)に等しくなるのに対し、ハルデン事前確率Beta(0,0)は次の試行における成功の事後期待値が0(次の試行で絶対的に失敗する確実性)になる。ジェフリーズ事前確率は次の試行における成功の事後期待値が(1/2)/( n + 1)に等しくなるが、パークス[ 61 ] (p.303)はこれを「ベイズ・ラプラスの結果1/( n + 2)よりもはるかに合理的に遠い結果である」と指摘している 。
Jaynes [ 52 ] は、(一様事前分布Beta(1,1)について) s = 0またはs = n の場合のこれらの式の使用について疑問を呈している。なぜなら、積分が収束しないからである(Beta(1,1)はs = 0またはs = n の場合に不適切な事前分布である)。実際には、ベイズ事前分布の両端の間にモードが存在するために必要な条件0<s<nは通常満たされており、したがってベイズ事前分布(0 < s < n である限り)は、領域の両端の間に位置する事後モードをもたらす。
継承の法則のセクションで述べたように、K. ピアソンは、n回の 試行でn回成功した後、次の ( n + 1 ) 回の試行がすべて成功する事後確率(ベイズBeta(1,1)分布を事前確率として用いる場合)は、 n の値に関わらず、正確に1/2であることを示した。ハルデンBeta(0,0)分布を事前確率として用いる場合、この事後確率は1(n回の試行 でn 回成功した後、次の ( n + 1 ) 回の試行がすべて成功するという絶対的な確実性 )である。 Perks [ 61 ] (p.303)は、現在Jeffreys事前分布として知られているものについて、この確率は(( n +1/2)/( n +1))(( n +3/2)/( n +2))...(2n + 1/2)/( 2n +1)となり、n =1、2、3に対して15/24、315/480、9009/13440となり、nが無限大に近づくにつれて急速に限界値に近づくことを示しています。パークスは、現在ジェフリーズ事前分布として知られているものが、「ベイズ・ラプラスの結果や、ジェフリーズが否定した(ハルデン)代替則(確率として確実性を与える)の結果よりも明らかに『合理的』である」と述べている。これは明らかに帰納法の過程と非常によく対応している。それが目的にとって『絶対的に』合理的であるかどうか、つまり、1に達するという不合理性がなく、かつ十分な大きさであるかどうかは、他者が判断すべき問題である。しかし、その結果は、サンプリング実験前の完全な無関心と知識の欠如という仮定に依存していることを認識する必要がある。 1 / 2 = 0.70710678 … {\displaystyle 1/{\sqrt {2}}=0.70710678\ldots }
以下は、これら 3 つの事前確率分布で得られた事後分布の分散です。
ベイズの 事前確率(Beta(1,1))の場合、事後分散は次のようになります。
variance = ( n − s + 1 ) ( s + 1 ) ( 3 + n ) ( 2 + n ) 2 , which for s = n 2 results in variance = 1 12 + 4 n {\displaystyle {\text{variance}}={\frac {(n-s+1)(s+1)}{(3+n)(2+n)^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in variance}}={\frac {1}{12+4n}}}
ジェフリーズの 事前確率(Beta(1/2,1/2))の場合、事後分散は次のようになります。
variance = ( n − s + 1 2 ) ( s + 1 2 ) ( 2 + n ) ( 1 + n ) 2 , which for s = n 2 results in var = 1 8 + 4 n {\displaystyle {\text{variance}}={\frac {(n-s+{\frac {1}{2}})(s+{\frac {1}{2}})}{(2+n)(1+n)^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in var}}={\frac {1}{8+4n}}}
ハルデン 事前確率(Beta(0,0))の場合、事後分散は次のようになる。
variance = ( n − s ) s ( 1 + n ) n 2 , which for s = n 2 results in variance = 1 4 + 4 n {\displaystyle {\text{variance}}={\frac {(n-s)s}{(1+n)n^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in variance}}={\frac {1}{4+4n}}}
したがって、Silvey [ 50 ] が指摘したように、 n が大きい場合、分散は小さく、したがって事後分布は非常に集中しているのに対し、想定された事前分布は非常に拡散しています。これは、漠然とした事前知識が(ベイズの定理により)有益な実験によってより正確な事後知識に変換されるため、期待される結果と一致しています。n が 小さい場合、ハルデン事前分布 Beta(0,0) は事後分散が最大になり、ベイズ事前分布 Beta(1,1) はより集中した事後分散になります。ジェフリーズ事前分布 Beta(1/2,1/2) は、他の 2 つの中間の事後分散になります。n が 増加するにつれて、分散は急速に減少し、3 つの事前分布すべての事後分散がほぼ同じ値に収束します(n → ∞ で分散がゼロに近づきます)。ハルデン 事前確率Beta(0,0)は、平均 (「次の」試行における成功確率の期待値)が成功回数と総試行回数の比s/nと同一である事後確率密度をもたらすという前の結果を思い出すと、上記の式から、ハルデン 事前確率Beta(0,0)も、最大尤度推定s/nとサンプルサイズ(§ 分散 ) で表される分散と同一の事後確率密度をもたらすことがわかります。
variance = μ ( 1 − μ ) 1 + ν = ( n − s ) s ( 1 + n ) n 2 {\displaystyle {\text{variance}}={\frac {\mu (1-\mu )}{1+\nu }}={\frac {(n-s)s}{(1+n)n^{2}}}}
平均μ = s / n 、サンプルサイズ ν = n です。
ベイズ推論において、二項分布に事前分布 Beta( αPrior , βPrior )を用いることは、観測された成功と失敗の実際の数に「成功」の疑似観測値(αPrior − 1)と「失敗」の疑似観測値( βPrior − 1)を加算し、実際の観測値と疑似観測値の両方における成功の割合で二項分布のパラメータpを推定することと等価である。 一様事前分布Beta(1,1)は、Beta(1,1)では(αPrior − 1) = 0かつ(βPrior − 1) = 0となるため、疑似観測値を加算(または減算)しない。Haldane事前 分布 Beta ( 0,0)はそれぞれ1つの疑似観測値を減算し、Jeffreys事前分布Beta(1/2,1/2)は成功の疑似観測値(1/2)と同数の失敗を減算する。この減算は事後分布を平滑化する 効果があります。成功率が50%でない場合(s / n ≠ 1/2)、α Priorとβ Priorの値が1未満(したがって、( α Prior − 1)と( β Prior − 1)が負)の場合、スパース性、つまりパラメータp が0または1に近づく分布が有利になります。実際には、α Priorとβ Priorの値が0から1の間であれば、それらが一緒に作用して 集中パラメータ として機能します。
添付のプロットは、サンプルサイズn ∈ {3,10,50}、成功s ∈ { n /2, n /4}、Beta( α Prior, β Prior) ∈ {Beta(0,0),Beta(1/2,1/2),Beta(1,1)} の事後確率密度関数を示しています。また、n = {4,12,40}、成功s = { n /4}、Beta( α Prior, β Prior) ∈ {Beta(0,0),Beta(1/2,1/2),Beta(1,1)} の場合も示されています。最初のプロットは、成功s ∈ {n/2}、平均 = モード = 1/2 の対称的なケースを示しており、2 番目のプロットは、 s ∈ { n /4} の歪んだケースを示しています。これらの画像は、サンプルサイズが50の場合、事後分布において事前分布間にほとんど差がないことを示しています(p = 1/2付近でより顕著なピークが見られます)。非常に小さなサンプルサイズでは、有意差が見られます(特に、サンプルサイズが3の退化したケースでは、分布がより平坦になります)。したがって、成功率s = { n /4}の歪んだケースでは、小さなサンプルサイズにおいて、対称的なケースよりも事前分布の選択による影響が大きいことがわかります。対称分布の場合、ベイズ事前分布Beta(1,1)は最もピークが高く、事後分布が最も高い分布となり、ハルデン事前分布Beta(0,0)は最も平坦でピークが最も低い分布となります。ジェフリーズ事前分布Beta(1/2,1/2)はそれらの中間に位置します。ほぼ対称で、それほど歪んでいない分布の場合、事前分布の影響は同様です。サンプル サイズが非常に小さい場合 (この場合はサンプル サイズが 3) および分布が歪んでいる場合 (この例ではs ∈ { n /4})、ハルデイン事前分布は、左端に特異点を持つ逆 J 字型の分布になる可能性があります。ただし、これは退化した場合にのみ発生します (この例ではn = 3 なのでs = 3/4 < 1 となり、ハルデイン事前分布の事後分布のモードが両端の間に位置するためには s が 1 より大きくなければならないため退化した値となり、s = 3/4 は整数でないため尤度に対する二項分布の初期仮定に違反します)。また、これはサンプル サイズが妥当な一般的な場合 (両端の間にモードが存在するために必要な条件 1 < s < n − 1 が満たされる場合) には問題になりません。
ジェインズ[ 52 ] は著書の第12章(385ページ)で、ハルデン事前分布 Beta(0,0)は完全な無知の事前知識状態 を表し、実験が成功か失敗のどちらをもたらすかが物理的に可能かどうかさえわからないが、ベイズ(一様)事前分布Beta(1,1)は 2つの結果の両方が可能である とわかっている場合に適用されると主張している。ジェインズは次のように述べている。「ベイズ・ラプラス事前分布(Beta(1,1))は完全な無知の状態を表すのではなく 、1つの成功と1つの失敗を観察した知識状態を表すと解釈する…少なくとも1つの成功と1つの失敗が分かれば、実験は物理的可能性という意味で真の2値実験であるとわかる。」ジェインズ[ 52 ] はジェフリーズの事前分布Beta(1/2,1/2)については特に論じていない(ジェインズの著書[ 52 ] の181ページ、423ページ、第12章での「ジェフリーズの事前分布」についてのジェインズの論じは、代わりにジェフリーズが1939年版の著書[59]で導入した不適切で正規化されていない事前分布「1/pdp」について 言及 し て いる。これ はジェフリーズが現在ジェフリーズの不変事前分布として知られるもの、すなわちフィッシャーの情報行列の行列式の平方根を導入する7年前のことである。 「1/p」はジェフリーズ(1946)の指数分布 に対する不変事前分布であり 、ベルヌーイ分布や二項分布に対するものではない )。しかし、上記の議論から、ジェフリーズベータ(1/2,1/2)事前分布はハルデンベータ(0,0)事前分布とベイズベータ(1,1)事前分布の中間の知識状態を表すことがわかります。
同様に、カール・ピアソンは 1892年の著書『科学の文法』 [ 68 ] [ 69 ] (1900年版144ページ)の中で、ベイズ(ベータ(1,1))一様事前分布は完全な無知事前分布ではなく、事前情報によって「無知を均等に分配する」ことが正当化される場合にのみ使用すべきであると主張した。ピアソンは次のように書いている。「しかし、我々が立てたと思われる唯一の仮定は、自然について何も知らない以上、ルーティンとアノミー(ギリシャ語のανομία、つまり「なし」と「法則」に由来)は、等しく起こりうると考えるべきだ、というものである。しかし、この仮定を立てることさえ、実際には正当化されていなかった。なぜなら、それは自然に関して我々が持っていない知識を伴うからである。我々は、コインの構造と挙動に関する一般的な経験 を用いて、表と裏の確率は等しいと主張するが、自然について何も知らない以上、ルーティンが等しく起こりうると経験に基づいて主張する権利はない。規範と違反は、どちらも等しく起こりうる。無知な我々は、経験に先立って、自然はあらゆるルーティン、あらゆるアノミー(無規範性)、あるいはその両者のあらゆる割合の混合から成り立つ可能性があり、そしてそれらはすべて等しく起こりうることを考慮すべきである。経験後のこれらの構成のうちどれが最も起こりうるかは、明らかにその経験がどのようなものであったかによって決まる。
十分なサンプリングデータ があり、事後確率モードが領域の両端 (x = 0またはx = 1)に位置していない場合、ベイズ(Beta(1,1))、ジェフリーズ(Beta(1/2,1/2))、ハルデン(Beta(0,0))の3つの事前分布は、同様の事後 確率 密度を生成するはずである。そうでない場合、Gelmanら[ 70 ] (p.65)が指摘するように、「利用可能なデータが非常に少なく、非情報事前分布の選択が違いを生む場合、事前分布に関連情報を入れるべきである」、あるいはBerger [ 4 ] (p.125)が指摘するように、「異なる合理的な事前分布が実質的に異なる答えを生み出す場合、単一の答えがあると述べるのは正しいだろうか? 結論が事前の信念に依存する科学的不確実性があることを認める方が良いのではないか?」。
発生と応用
順序統計 ベータ分布は順序統計 理論において重要な応用を持っています。基本的な結果は、連続一様分布から得られた n 個の標本のうちk 番目に小さいものの分布はベータ分布に従うということです。[ 40 ] この結果は次のように要約されます
U ( k ) ∼ Beta ( k , n + 1 − k ) . {\displaystyle U_{(k)}\sim \operatorname {Beta} (k,n+1-k).}
このことから、そして確率積分変換 に関連する理論を応用することで、任意の連続分布 から任意の個々の順序統計量の分布を導くことができる。[ 40 ]
主観論理 標準的な論理では、命題は真か偽かのどちらかであるとみなされます。対照的に、主観論理で は、人間は現実世界に関する命題が絶対的に真か偽かを絶対的に確実に判断することはできないと仮定します。主観論理では、2値事象の 事後 確率推定値はベータ分布で表すことができます。[ 71 ]
ウェーブレット解析 ウェーブレットは、 振幅 がゼロから始まり、増加し、その後ゼロに戻る波のような振動 です。通常、すぐに減衰する「短い振動」として視覚化できます。ウェーブレットは、音声信号や画像など、さまざまな種類のデータから情報を抽出するために使用できます。したがって、ウェーブレットは、信号処理に役立つ特定の特性を持つように意図的に作成されています。ウェーブレットは時間と 周波数の 両方で局在化しますが、標準的なフーリエ変換は 周波数のみで局在化します。したがって、標準的なフーリエ変換は定常プロセス にのみ適用できますが、ウェーブレットは 非定常プロセス に適用できます。連続ウェーブレットはベータ分布に基づいて構築できます。ベータウェーブレット [ 72 ] は、2つの形状パラメータαとβによって形状が微調整される ハールウェーブレット のソフトな変種と見なすことができます
集団遺伝学 ボールディング・ニコルズモデルは、 集団遺伝学 で使用されるベータ分布の2パラメータ化 です。[ 73 ] これは、細分化された集団の構成要素における 対立遺伝子頻度 の統計的記述です
α = μ ν , β = ( 1 − μ ) ν , {\displaystyle {\begin{aligned}\alpha &=\mu \nu ,\\\beta &=(1-\mu )\nu ,\end{aligned}}} ここで、Fは 2 つの集団間の (ライトの) 遺伝距離です。 ν = α + β = 1 − F F {\displaystyle \nu =\alpha +\beta ={\frac {1-F}{F}}} 0 < F < 1 {\displaystyle 0<F<1}
プロジェクト管理:タスクコストとスケジュールのモデリング ベータ分布は、最小値と最大値で定義された区間内で発生するように制約された事象をモデル化するために使用できます。このため、ベータ分布は三角分布とともに、 PERT 、クリティカルパス法 (CPM)、共同費用スケジュールモデリング(JCSM)、その他のプロジェクト管理 /制御システム において、タスクの完了までの時間とコストを記述するために広く使用されています。プロジェクト管理においては、ベータ分布の平均 と標準偏差を推定するために、簡略化された計算が広く用いられています。 [ 39 ]
μ ( X ) = a + 4 b + c 6 σ ( X ) = c − a 6 {\displaystyle {\begin{aligned}\mu (X)&={\frac {a+4b+c}{6}}\\[8pt]\sigma (X)&={\frac {c-a}{6}}\end{aligned}}}
ここで、 a は最小値、c は最大値、b は最も可能性の高い値 ( α > 1 およびβ > 1の場合のモード ) です。
上記の平均値 の推定値はPERT 3 点推定値 として知られており、次のβ の値のいずれに対しても正確です(これらの範囲内の任意の α に対して)。 μ ( X ) = a + 4 b + c 6 {\displaystyle \mu (X)={\frac {a+4b+c}{6}}}
β = α > 1 (対称ケース) 、標準偏差 、歪度 = 0、過剰尖度 =σ ( X ) = c − a 2 1 + 2 α {\displaystyle \sigma (X)={\frac {c-a}{2{\sqrt {1+2\alpha }}}}} − 6 3 + 2 α {\displaystyle {\frac {-6}{3+2\alpha }}} または
β = 6 − α (5 > α > 1(歪んだケース)の場合)、標準偏差 σ ( X ) = ( c − a ) α ( 6 − α ) 6 7 , {\displaystyle \sigma (X)={\frac {(c-a){\sqrt {\alpha (6-\alpha )}}}{6{\sqrt {7}}}},}
歪度 、過剰尖度 = ( 3 − α ) 7 2 α ( 6 − α ) {\displaystyle {}={\frac {(3-\alpha ){\sqrt {7}}}{2{\sqrt {\alpha (6-\alpha )}}}}} = 21 α ( 6 − α ) − 3 {\displaystyle {}={\frac {21}{\alpha (6-\alpha )}}-3}
上記の標準偏差の推定値 σ ( X )=( c − a )/6は、 α とβ が以下のいずれの値であっても正確です。
α = β = 4(対称)、歪度 = 0、過剰尖度 = −6/11。β = 6 − α かつ(右側、正の歪度)、歪度 、過剰尖度 = 0α = 3 − 2 {\displaystyle \alpha =3-{\sqrt {2}}} = 1 2 {\displaystyle {}={\frac {1}{\sqrt {2}}}} β = 6 − α かつ(左側、負の歪度)、歪度 、過剰尖度 = 0α = 3 + 2 {\displaystyle \alpha =3+{\sqrt {2}}} = − 1 2 {\displaystyle {}={\frac {-1}{\sqrt {2}}}} そうでなければ、αとβの他の値を持つベータ分布の近似値としては不十分であり、平均で40%、分散で549%の平均誤差を示す。[ 74 ] [ 75 ] [ 76 ]
ランダム変量生成 X とY が 独立で、かつX ∼ Γ ( α , θ ) {\displaystyle X\sim \Gamma (\alpha ,\theta )} Y ∼ Γ ( β , θ ) {\displaystyle Y\sim \Gamma (\beta ,\theta )}
X X + Y ∼ B ( α , β ) . {\displaystyle {\frac {X}{X+Y}}\sim \mathrm {B} (\alpha ,\beta ).}
したがって、ベータ変量を生成するアルゴリズムの1つは、Xが パラメータ(α, 1)を持つガンマ変量であり、Yが パラメータ (β, 1)を持つ独立ガンマ変量であるときに、を生成することです。[ 77 ] 実際、ここでとが独立しており、です。とがおよびから独立している場合、とはから独立しています。これは、独立変数とランダム変数の積がランダム変数であることを示しています。 X X + Y {\displaystyle {\frac {X}{X+Y}}} X X + Y {\displaystyle {\frac {X}{X+Y}}} X + Y {\displaystyle X+Y} X + Y ∼ Γ ( α + β , θ ) {\displaystyle X+Y\sim \Gamma (\alpha +\beta ,\theta )} Z ∼ Γ ( γ , θ ) {\displaystyle Z\sim \Gamma (\gamma ,\theta )} Z {\displaystyle Z} X {\displaystyle X} Y {\displaystyle Y} X + Y X + Y + Z ∼ B ( α + β , γ ) {\displaystyle {\frac {X+Y}{X+Y+Z}}\sim \mathrm {B} (\alpha +\beta ,\gamma )} X + Y X + Y + Z {\displaystyle {\frac {X+Y}{X+Y+Z}}} X X + Y {\displaystyle {\frac {X}{X+Y}}} B ( α , β ) {\displaystyle \mathrm {B} (\alpha ,\beta )} B ( α + β , γ ) {\displaystyle \mathrm {B} (\alpha +\beta ,\gamma )} B ( α , β + γ ) {\displaystyle \mathrm {B} (\alpha ,\beta +\gamma )}
また、n個の 一様分布 変量のk 次の順序統計量は なので、 α とβ が小さな整数の場合の代替案は、α + β − 1個の一様変量を生成し、αから数えて1番目に小さいものを選択することである。[ 40 ] B ( k , n + 1 − k ) {\displaystyle \mathrm {B} (k,n+1-k)}
ベータ分布を生成するもう一つの方法は、ポリア壷モデル です。この方法では、α個の「黒」ボールとβ個の「白」ボールが入った「壷」から始め、一様に復元抽出を行います。試行ごとに、最後に抽出したボールの色に応じてボールが1つ追加されます。漸近的に、黒と白のボールの割合はベータ分布に従って分布し、実験を繰り返すたびに異なる値が生成されます。
逆変換サンプリングを 使用することもできます。
ベータ分布の正規近似 α ~ β かつα とβ >> 1のベータ分布は、 平均1/2、分散1/(4(2 α + 1))の正規分布に近似する。α ≥ β の場合、正規分布の近似値は、αの逆数の対数の立方根を取ることで改善できる[ 78 ] [ 79 ] B ( α , β ) {\displaystyle \mathrm {B} (\alpha ,\beta )} B ( α , β ) {\displaystyle \mathrm {B} (\alpha ,\beta )}
歴史 トーマス・ベイズは、1763年に リチャード・プライス によって出版された死後論文[ 62 ] の中で、ベルヌーイ試行における成功確率の密度としてベータ分布を得ました(§応用、ベイズ推論を 参照)。しかし、この論文ではベータ分布のモーメントの分析やその特性の議論は行われていません
カール・ピアソンは ベータ分布をピアソン分布のタイプIの解として解析した。ベータ分布に関する最初の体系的な現代的議論は、おそらくカール・ピアソン によるものである。[ 80 ] [ 81 ] ピアソンの論文[ 21 ] [ 33 ] では、ベータ分布は微分方程式の解として表現されている。この方程式はピアソンのタイプI分布で あり、任意のシフトと再スケーリングを除けば本質的にはピアソンのタイプI分布と同一である(ベータ分布とピアソンのタイプI分布は、適切なパラメータの選択によって常に等しくなる)。実際、第二次世界大戦前の数十年間のいくつかの英語の書籍や雑誌記事では、ベータ分布をピアソンのタイプI分布と呼ぶのが一般的であった。 ウィリアム・P・エルダートンは、 1906年のモノグラフ「頻度曲線と相関」[ 42 ] の中で、ベータ分布をピアソンのタイプI分布としてさらに分析し、4パラメータの場合のモーメント法の詳細な議論、U字型、J字型、ねじれたJ字型、「三角帽子型」、水平および斜めの直線の場合の図(エルダートンはこれを「三角帽子型」と表現している)などを掲載している。エルダートンは「私は主にピアソン教授に恩義を感じていますが、その恩義は公式に感謝の意を表すことが不可能なほどのものです」と記している。 エルダートンは1906年のモノグラフ [ 42 ] の中で、ベータ分布に関する膨大な情報を提供しており、最頻値として選択された分布の起源式や、タイプIからタイプVIIまでの他のピアソン分布に関する式も提供している。エルダートンはまた、ベータ関数とガンマ関数に関する付録(「II」)を含む多数の付録も掲載している。後の版では、エルダートンは平均として選択された分布の起源に関する方程式と、ピアソン分布 VIII から XII の分析を追加しました。
ボウマンとシェントン[ 44 ] は、「フィッシャーとピアソンは(パラメータ)推定のアプローチ、特にベータ分布の場合の(ピアソンの)モーメント法と(フィッシャーの)最大尤度法に関して意見の相違があった」と述べている。また、ボウマンとシェントンによれば、「タイプI(ベータ分布)モデルが論争の中心となったのは、全くの偶然だった。4つのパラメータを持つ、これより難しいモデルを見つけるのは難しかっただろう」という。フィッシャーとカール・ピアソンの長年にわたる公的な対立は、権威ある雑誌に掲載された多くの論文で追うことができる。例えば、ベータ分布の4つのパラメータの推定、そしてフィッシャーによるピアソンのモーメント法の恣意性に関する批判については、ピアソンの論文「モーメント法と最尤法」[ 45 ] (ロンドン大学ユニバーシティ・カレッジを退職して3年後に発表。ユニバーシティ・カレッジの職はフィッシャーとピアソンの息子エゴンが分担していた)を参照のこと。ピアソンは次のように記している。「私は(コシャイの1933年王立統計学会誌掲載論文を)読んだが、これは私の知る限り、現在出版されているフィッシャー教授の手法の適用例の中で唯一のものである。驚いたことに、その手法は、まず(ピアソン)モーメント法によって頻度曲線の定数を求め、次にフィッシャーが「最尤法」と呼ぶものによって更なる近似値を重ね合わせることで、曲線定数の『より効率的な値』を得るという彼の主張に基づいている。」
統計学の歴史に関するデイヴィッドとエドワーズによる論文[ 82 ] では、ベータ分布に関する最初の現代的な扱いについて1911年[ 83 ] に言及しており、ジニ係数 を考案したイタリアの統計学者 、人口統計学者 、社会学者である コラード・ジニ によって標準となったベータの呼称が使われている。N.L .ジョンソン とS.コッツは 、 統計科学における主要な歴史上の人物に関する包括的で非常に情報量の多いモノグラフ[ 84 ] の中で、コラード・ジニ [ 85 ] を「初期のベータ分布のパラメータを導き出す問題を、いわゆる経験的ベイズ法の出現を予見する手法を取り上げて扱った初期のベイズ主義者」と評価している。
参考文献 ^ a b c d e f g h i j k l m n o p q r s t u v w x y ジョンソン、ノーマン・L.; コッツ、サミュエル; バラクリシュナン、N. (1995). 「第25章 ベータ分布」.連続一変量分布第2巻 (第2版). Wiley. ISBN 978-0-471-58494-0 。 ^ a b コリン・ローズ、マレー・D・スミス (2002). MATHEMATICAによる数理統計 . Springer. ISBN 978-0387952345 。^ a b c Kruschke, John K. (2011). ベイズ統計解析の実践:RとBUGSを使ったチュートリアル . Academic Press / Elsevier. p. 83. ISBN 978-0123814852 。^ a b バーガー、ジェームズ・O. (2010). 統計的意思決定理論とベイズ分析 (第2版). シュプリンガー. ISBN 978-1441930743 。^ a b c ウィリアム・フェラー (1971). 確率論とその応用入門 第2巻 . Wiley. ISBN 978-0471257097 。^ ワズワース、GP(1960年) 『確率と確率変数入門』 ニューヨーク:マグロウヒル、 52 ページ ^ Kruschke, John K. (2015). 『ベイズ統計データ分析の実践:R、JAGS、Stanを使ったチュートリアル 』Academic Press / Elsevier. ISBN 978-0-12-405888-0 。^ a b ワズワース、ジョージ・P.、ジョセフ・ブライアン (1960)。 確率と確率変数入門 。マグロウヒル ^ a b c d e f g グプタ、アルジュン・K.編 (2004). ベータ分布とその応用ハンドブック . CRC Press. ISBN 978-0824753962 。^ a b Kerman, Jouni (2011). 「ベータ分布の中央値の閉形式近似」 arXiv : 1111.0433 [ math.ST ] ^ Mosteller, Frederick、John Tukey (1977). 『データ分析と回帰:統計学第2講座 』Addison-Wesley Pub. Co. Bibcode : 1977dars.book.....M . ISBN 978-0201048544 。^ ウィリアム・フェラー(1968年) 『確率論とその応用入門 』第1巻(第3版)ワイリー社 ISBN 978-0471257080 。^ フィリップ・J・フレミング、ジョン・J・ウォレス「統計で嘘をつかない方法:ベンチマーク結果を正しく要約する方法 」Communications of the ACM、29(3):218–221、1986年3月。 ^ 「NIST/SEMATECH 統計手法の電子ハンドブック 1.3.6.6.17. ベータ分布」 国立 標準技術研究所 情報技術研究所 2012年4月. 2016年 5月31日 閲覧 。 ^ Oguamanam, DCD; Martin, HR; Huissoon, JP (1995). 「ベータ分布のギア損傷解析への応用について」. 応用音響 . 45 (3): 247– 261. doi : 10.1016/0003-682X(95)00001-P . ^ Zhiqiang Liang; Jianming Wei; Junyu Zhao; Haitao Liu; Baoqing Li; Jie Shen; Chunlei Zheng (2008年8月27日). 「 尖度の統計的意味と地震信号に基づく人物識別への新たな応用」 . Sensors . 8 (8): 5106– 5119. Bibcode : 2008Senso...8.5106L . doi : 10.3390/s8085106 . PMC 3705491. PMID 27873804 . ^ Kenney, JF, および E.S. Keeping (1951). 『統計数学 パート2』第2版 . D. Van Nostrand Company Inc. {{cite book }}: CS1 maint: multiple names: authors list (link )^ a b c d アブラモウィッツ、ミルトン、アイリーン・A・ステガン (1965). 数式、グラフ、表付き数学関数ハンドブック . ドーバー. ISBN 978-0-486-61272-0 。^ Weisstein, Eric W. 「Kurtosis」 . MathWorld - Wolfram Web Resource . 2012年 8月13日 閲覧 ^ a b パニック、マイケル・J (2005). 『初等的視点からの高度統計学 』 アカデミック・プレス. ISBN 978-0120884940 。^ a b c d e f ピアソン、カール (1916). 「進化論への数学的貢献 XIX:歪度変動に関する回想録第2補遺」 . 王立 協会哲学論文集 A. 216 ( 538–548 ) : 429–457 . 書誌コード : 1916RSPTA.216..429P . doi : 10.1098/rsta.1916.0009 . JSTOR 91092 ^ グラドシュテイン、イズライル・ソロモノヴィッチ ; ヨシフ・モシェヴィッチ・リジク ; ジェロニムス、ユーリ・ヴェニアミノヴィッチ ; ツェイトリン、ミハイル・ユリエヴィッチ ;ジェフリー、アラン (2015) [2014 年 10 月]。ツウィリンガー、ダニエル。 モル、ヴィクトル・ユーゴー (編)。 インテグラル、シリーズ、および製品の表 。 Scripta Technica, Inc. による翻訳 (第 8 版)。 Academic Press, Inc. ISBN 978-0-12-384933-5 LCCN 2014010276 ^ ビリングスリー、パトリック (1995) . 「第30章 モーメント法」. 確率と測度 (第3版). Wiley-Interscience. ISBN 978-0-471-00710-4 。^ a b MacKay, David (2003). 情報理論、推論、学習アルゴリズム . Cambridge University Press; 初版. 書誌コード : 2003itil.book.....M . ISBN 978-0521642989 。^ a b Johnson, NL (1949). 「並進法によって生成された頻度曲線のシステム」 (PDF) . Biometrika . 36 ( 1–2 ): 149–176 . doi : 10.1093/biomet/36.1-2.149 . hdl : 10338.dmlcz/ 135506 . PMID 18132090 ^ Verdugo Lazo, ACG; Rathie, PN (1978). 「連続確率分布のエントロピーについて」 IEEE Trans. Inf. Theory . 24 (1): 120– 122. doi : 10.1109/TIT.1978.1055832 . ^ シャノン、クロード・E. (1948). 「通信の数学的理論」. ベルシステム技術ジャーナル . 27 (4): 623– 656. doi : 10.1002/j.1538-7305.1948.tb01338.x . ^ a b c Cover, Thomas M. and Joy A. Thomas (2006). 『情報理論の要素 第2版』(Wileyシリーズ 電気通信と信号処理) . Wiley-Interscience; 第2版. ISBN 978-0471241959 。^ プランケット、キム、ジェフリー・エルマン (1997)。 『生得性の再考:コネクショニストシミュレーションのためのハンドブック(ニューラルネットワークモデリングとコネクショニズム) 』ブラッドフォードブック、166ページ 。ISBN 978-0262661058 。{{cite book }}: CS1 maint: multiple names: authors list (link )^ ナラパティ、ラメシュ (2006). 平滑化ディリクレ分布:情報検索におけるクロスエントロピーランキングの理解 (論文). マサチューセッツ大学アマースト校コンピュータサイエンス学部 ^ a b ピアソン、エゴン・S.(1969年7月)。 「頻度曲線の利用の発展を通して辿る歴史的考察」 THEMIS 統計分析研究プログラム、技術報告書38。 海軍研究局、契約番号N000014-68-A-0515(プロジェクトNR 042–260)。 ^ Hahn, Gerald J.; Shapiro, S. (1994). Statistical Models in Engineering (Wiley Classics Library) . Wiley-Interscience. ISBN 978-0471040651 。^ a b ピアソン、カール (1895). 「進化の数学的理論への貢献 II:均質物質における歪んだ変化」 . 王立 協会哲学論文集 . 186 : 343–414 . 書誌コード : 1895RSPTA.186..343P . doi : 10.1098/rsta.1895.0010 . JSTOR 90649 ^ Buchanan, K.; Rockway, J.; Sternberg, O.; Mai, NN (2016年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための和差ビームフォーミング」 . 2016 IEEE Radar Conference (RadarConf) . pp. 1– 5. doi : 10.1109/RADAR.2016.7485289 . ISBN 978-1-5090-0863-6 . S2CID 32525626 .^ Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (2017年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための送信ビームフォーミング」. 2017 IEEE Radar Conference (RadarConf) . pp. 0112– 0117. doi : 10.1109/RADAR.2017.7944181 . ISBN 978-1-4673-8823-8 . S2CID 38429370 .^ Ryan, Buchanan, Kristopher (2014-05-29). 「非周期的(ランダム)フェーズドアレイの理論と応用 」 {{cite web }}: CS1 maint: multiple names: authors list (link )^ Pham-Gia, T. (2000年1月). 「独立ベータ変数の比率の分布とその応用」 . Communications in Statistics - Theory and Methods . 29 (12): 2693– 2715. doi : 10.1080/03610920008832632 . ISSN 0361-0926 . 2024年 11月13日 閲覧 . ^ エレリアス・ベラスコ、ホセ・マヌエル、エレリアス・プレゲスエロ、ラファエル、ルネ・ファン・ドルプ、ヨハン。 (2011年)。 PERT 平均と分散を再検討します。 European Journal of Operational Research (210)、p. 448–451。 ^ a b Malcolm, DG; Roseboom, JH; Clark, CE; Fazar, W. (1958年9月~10月). 「研究開発プログラム評価への手法の応用」. オペレーションズ・リサーチ . 7 (5): 646– 669. doi : 10.1287/opre.7.5.646 . ISSN 0030-364X . ^ a b c d David、HA、Nagaraja、HN (2003)注文統計 (第 3 版)。ニュージャージー州ワイリー、458 ページ。ISBN 0-471-38926-9 ^ 「1.3.6.6.17. ベータ版 配布 」 www.itl.nist.gov ^ a b c d e f g h エルダートン、ウィリアム・ペイリン (1906). 頻度曲線と相関関係 チャールズ・アンド・エドウィン・レイトン (ロンドン). ^ エルダートン、ウィリアム・ペイリン、ノーマン・ロイド・ジョンソン (2009). 『度数曲線の体系 』ケンブリッジ大学出版局. ISBN 978-0521093361 。^ a b c Bowman, KO ; Shenton, LR (2007). 「ベータ分布、モーメント法、Karl PearsonとRA Fisher」 (PDF) . Far East J. Theo. Stat . 23 (2): 133– 164 ^ a b ピアソン, カール (1936年6月). 「モーメント法と最大尤度法」. Biometrika . 28 (1/2): 34– 59. doi : 10.2307/2334123 . JSTOR 2334123 . ^ a b c Joanes, DN; CA Gill (1998). 「標本の歪度と尖度の指標の比較」. The Statistician . 47 (Part 1): 183– 189. doi : 10.1111/1467-9884.00122 . ^ Beckman, RJ; GL Tietjen (1978). 「ベータ分布の最大尤度推定」. Journal of Statistical Computation and Simulation . 7 ( 3–4 ): 253– 258. doi : 10.1080/00949657808810232 . ^ Gnanadesikan, R., Pinkham and Hughes (1967). 「最小順序統計量によるベータ分布パラメータの最大尤度推定」. Technometrics . 9 (4): 607– 620. doi : 10.2307/1266199 . JSTOR 1266199 . {{cite journal }}: CS1 maint: multiple names: authors list (link )^ Fackler, Paul. 「逆ディガンマ関数(Matlab)」 ハーバード大学工学応用科学部. 2012年8月18日 閲覧 。 ^ a b c シルベイ, SD (1975). 統計的推論 . チャップマンとハル. p. 40. ISBN 978-0412138201 。^ Edwards, AWF (1992). 尤度 . ジョンズ・ホプキンス大学出版局. ISBN 978-0801844430 。^ a b c d e f Jaynes, ET (2003). 確率論、科学の論理 . Cambridge University Press. ISBN 978-0521592710 。^ コスタ、マックス、カバー、トーマス(1983年9月)。 エントロピー・パワー不等式とブルン・ミンコフスキー不等式の類似性について (PDF) 。スタンフォード大学統計学部、技術レポート48 {{cite book }}: CS1 maint: multiple names: authors list (link )^ a b c Aryal, Gokarna; Saralees Nadarajah (2004). 「ベータ分布の情報行列」 (PDF) . Serdica Mathematical Journal (ブルガリア科学アカデミー) . 30 : 513– 526. ^ a b ラプラス、ピエール・シモン、侯爵(1902年)。 確率に関する哲学的エッセイ 。ニューヨーク:J. Wiley、ロンドン:Chapman & Hall。ISBN 978-1-60206-328-0 。CS1 maint: multiple names: authors list (link ) ^ コックス、リチャード・T. (1961). 確率推論の代数 . ジョンズ・ホプキンス大学出版局. ISBN 978-0801869822 。^ a b ケインズ、ジョン・メイナード (2010) [1921]. 『確率論:哲学と科学史のつながり』 ワイルドサイド・プレス. ISBN 978-1434406965 。^ ピアソン、カール (1907).「過去の 経験が未来への期待に与える影響について」. 哲学雑誌 . 6 (13): 365–378 ^ a b c d ジェフリーズ、ハロルド(1998年) 『確率論 』オックスフォード大学出版局、第3版 。ISBN 978-0198503682 。^ Broad, CD (1918年10月). 「帰納法と確率の関係について」. MIND, 心理学と哲学の季刊誌 . 27 (新シリーズ) (108): 389– 404. doi : 10.1093/mind/XXVII.4.389 . JSTOR 2249035 . ^ a b c d パークス, ウィルフレッド (1947年1月). 「逆確率に関するいくつかの考察(新たな無差別則を含む)」 . アクチュアリー協会誌 . 73 (2): 285– 334. doi : 10.1017/S0020268100012270 . 2014年1月12日時点の オリジナル よりアーカイブ。 2012年9月19日 閲覧 。 ^ a b ベイズ、トーマス; リチャード・ プライス (1763) による伝達。 「偶然性の教義における問題解決に向けた試論」 王立 協会哲学論文集 53 : 370–418 . doi : 10.1098/rstl.1763.0053 . JSTOR 105741 . ^ Haldane, JBS (1932). 「逆確率に関する注記」. ケンブリッジ哲学協会数学紀要 . 28 (1): 55– 61. Bibcode : 1932PCPS...28...55H . doi : 10.1017/s0305004100010495 . S2CID 122773707 . ^ ゼルナー、アーノルド (1971). 計量経済学におけるベイズ推論入門 . Wiley-Interscience. ISBN 978-0471169376 。^ ジェフリーズ、ハロルド(1946年9月). 「推定問題における事前確率の不変形式」 . Proceedings of the Royal Society A 24. 186 (1007): 453–461 . Bibcode : 1946RSPSA.186..453J . doi : 10.1098/ rspa.1946.0056 . PMID 20998741 ^ Berger, James; Bernardo, Jose; Sun, Dongchu (2009). 「参照事前分布の正式な定義」 . The Annals of Statistics . 37 (2): 905– 938. arXiv : 0904.0156 . Bibcode : 2009arXiv0904.0156B . doi : 10.1214/07-AOS587 . S2CID 3221355 . ^ Clarke, Bertrand S.; Andrew R. Barron (1994). 「ジェフリーズの事前分布はエントロピーリスクの下で漸近的に最も不利である」 (PDF) . Journal of Statistical Planning and Inference . 41 : 37–60 . doi : 10.1016/0378-3758(94)90153-8 . ^ ピアソン、カール (1892). 『科学の文法 』 ウォルター・スコット、ロンドン。 ^ ピアソン、カール (2009). 『科学の文法』 . BiblioLife. ISBN 978-1110356119 。^ Gelman, A., Carlin, JB, Stern, HS, and Rubin, DB (2003). ベイズ統計データ解析 . Chapman and Hall/CRC. ISBN 978-1584883883 。{{cite book }}: CS1 maint: multiple names: authors list (link )^ Jøsang, Audun (2001). 「 不確実な確率のための論理」 . 国際不確実性、あいまいさ、知識ベースシステムジャーナル . 9 (3): 279– 311. doi : 10.1142/S0218488501000831 . MR 1843261 ^ HM de OliveiraとGAA Araújo. ベータ分布から導出されるコンパクトにサポートされた1巡回ウェーブレット.通信情報システムジャーナル. vol.20, n.3, pp.27-33, 2005. ^ Balding, David J. ; Nichols, Richard A. (1995). 「多対立遺伝子座における集団間の差異を定量化する手法と、そのアイデンティティおよび父子関係の調査への影響」 Genetica 96 ( 1–2 ) . Springer : 3–12 . doi : 10.1007/BF01441146 . PMID 7607457. S2CID 30680826 . ^ Keefer, Donald L. and Verdini, William A. (1993). PERT活動時間パラメータのより正確な推定. Management Science 39(9), p. 1086–1091. ^ キーファー、ドナルド L.、ボディリー、サミュエル E. (1983). 連続確率変数の3点近似. マネジメントサイエンス29(5), p.595–609. ^ 「国防資源管理 研究所 - 海軍大学院 」 www.nps.edu ^ van der Waerden、BL、「数学的統計」、Springer、 ISBN 978-3-540-04507-6 。 ^ 用量反応曲線へのフィッティングのための不完全ベータ関数の正規化について ME Wise Biometrika vol 47, No. 1/2, 1960年6月, pp. 173–175 ^ Pratt, John W. 「二項分布、F分布、ベータ分布、およびその他の一般的な関連裾分布の確率の正規近似 II」アメリカ統計学会誌、第63巻、第324号、1968年、1457~1483頁。JSTOR、 https://doi.org/10.2307/2285896。2025年 10月21日にアクセス。 ^ Yule, GU ; Filon, LNG (1936). 「カール・ピアソン 1857–1936」 . 王立協会フェロー死亡記事 . 2 (5): 72. doi : 10.1098/rsbm.1936.0007 . JSTOR 769130 . ^ 「図書館・アーカイブカタログ」 。 サックラーデジタルアーカイブ 。王立協会。 2011年10月25日時点の オリジナルよりアーカイブ。 2011年7月1日 閲覧 。 ^ David, HA and AWF Edwards (2001). Annotated Readings in the History of Statistics . Springer; 第1版. ISBN 978-0387988443 。^ ジーニ、コラード (1911). 「事後確率の考察と生後牛の死因に関する報告への応用」 カリアリ大学経済学・政治学研究 . 第3紀(メトロン15, 133, 171, 1949に再録) : 5–41 ^ ジョンソン、ノーマン・L・コッツ編(1997年) 『統計科学の先駆者たち:17世紀から現在まで』(Wileyシリーズ 確率統計学 . Wiley. ISBN 978-0471163817 。^ メトロンジャーナル。 「コラード・ジーニの伝記」 。メトロンジャーナル。 2012年7月16日時点の オリジナル からアーカイブ。 2012年8月18日 閲覧
外部リンク ウィキメディア・コモンズには、
ベータ版配布 に関連するメディアがあります
離散一変数
連続一変量
有界区間で支持される 半無限区間で支えられた 実数直線全体で支えられている 支持の種類が異なる
混合一変量
多変量(結合) 方向性 退化 と特異性 族