ベータ分布

ベータ
ベータ
	確率密度関数
	累積分布関数
表記	ベータ( α , β )
パラメータ	α > 0形状(実数) β > 0形状(実数)
サポート	または
PDF	ここで、はガンマ関数です
CDF	（正規化不完全ベータ関数）
平均	（幾何平均の項を参照）二重ガンマ関数はどこにありますか
中央値
最頻値	α、β > 1 の場合 α = β = 1 の領域内の任意の値 α <1またはβ <1 の場合、モードは存在しない。密度は発散する。α ≤ 1 の場合は0 、 β ≤ 1の場合は1
分散	（トリガンマ関数および幾何分散のセクションを参照）
歪度
過剰尖度
エントロピー
MGF
CF	（合流型超幾何関数を参照）
フィッシャー情報量	フィッシャー情報量行列のセクションを参照
モーメント法

確率論と統計学において、ベータ分布は、アルファ( α ) とベータ( β )で表される2 つの正のパラメータによって区間 [0, 1] または (0, 1) で定義される連続確率分布の族です。これらのパラメータは、それぞれ変数の指数と 1 の補数として表示され、分布の形状を制御します。

ベータ分布は、様々な分野において、有限長の区間に限定された確率変数の挙動をモデル化するために応用されてきました。ベータ分布は、パーセンテージや割合のランダムな挙動に適したモデルです。

ベイズ推論では、ベータ分布はベルヌーイ分布、二項分布、負の二項分布、および幾何分布の共役事前確率分布です。

ここで論じるベータ分布の定式化は、第一種ベータ分布とも呼ばれ、第二種ベータ分布はベータプライム分布の別名です。多変数への一般化はディリクレ分布と呼ばれます。

定義

確率密度関数

ベータ分布の確率密度関数 (PDF)、または、形状パラメータ、は、次のように変数とその反射のべき関数です。 $0\leq x\leq 1$ $0<x<1$ $\alpha$ $\beta >0$ $x$ $(1-x)$

${\begin{aligned}f(x;\alpha ,\beta )&=\mathrm {constant} \cdot x^{\alpha -1}(1-x)^{\beta -1}\\[3pt]&={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\displaystyle \int _{0}^{1}u^{\alpha -1}(1-u)^{\beta -1}\,du}}\\[6pt]&={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}\,x^{\alpha -1}(1-x)^{\beta -1}\\[6pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}x^{\alpha -1}(1-x)^{\beta -1}\end{aligned}}$

ここではガンマ関数です。ベータ関数は、全体の確率が1になることを保証する正規化定数です。上記の式では、は確率変数の実現値（実際に発生した観測値）です。 $\Gamma (z)$ $\mathrm {B}$ $x$ $X$

NL JohnsonやS. Kotzなど^{[ 1 ]}の著者は、ベータ分布の形状パラメータとして、記号と（およびの代わりに）を使用しています。これは、形状パラメータとの両方が0に近づくと、極限でベータ分布がベルヌーイ分布に近づくため、ベルヌーイ分布のパラメータに伝統的に使用される記号を連想させます。 $p$ $q$ $\alpha$ $\beta$ $\alpha$ $\beta$

以下では、パラメータを持つベータ分布に従う確率変数を次のように表記する: ^[²^]^[³^] $X$ $\alpha$ $\beta$

$X\sim \operatorname {Beta} (\alpha ,\beta )$

統計文献で使用されているベータ分布に従う確率変数の他の表記法は^[⁴^]と^[⁵^]である。 $X\sim {\mathcal {B}}e(\alpha ,\beta )$ $X\sim \beta _{\alpha ,\beta }$

累積分布関数

累積分布関数は

$F(x;\alpha ,\beta )={\frac {\mathrm {B} {}(x;\alpha ,\beta )}{\mathrm {B} {}(\alpha ,\beta )}}=I_{x}(\alpha ,\beta )$

ここでは不完全ベータ関数であり、は正規化された不完全ベータ関数です。 $\mathrm {B} (x;\alpha ,\beta )$ $I_{x}(\alpha ,\beta )$

正の整数αとβに対して、ベータ分布の累積分布関数は二項分布の累積分布関数で表される。^{[ 6 ]}

$F_{\text{beta}}(x;\alpha ,\beta )=F_{\text{binomial}}(\beta -1;\alpha +\beta -1,1-x).$

代替パラメータ化

2つのパラメータ

平均と標本サイズ

ベータ分布は、その平均μ (0 < μ < 1)と 2 つの形状パラメータの合計ν = α + β > 0 ( ^{[ 3 ]} p. 83) で再パラメータ化することもできます。ベイズの定理を二項尤度関数と事前確率に適用した結果の事後ベータ分布の形状パラメータを αPosterior と βPosterior で表すと、両方の形状パラメータの加算がサンプルサイズ = ν = α ·Posterior + β ·Posterior であると解釈できるのは、ハルデン事前確率 Beta(0,0) の場合のみです。具体的には、ベイズ (一様) 事前確率 Beta(1,1) の場合、正しい解釈はサンプルサイズ = α ·Posterior + β Posterior − 2、つまり ν = (サンプルサイズ) + 2 となります。サンプルサイズが 2よりはるかに大きい場合、これら 2 つの事前確率の差は無視できるようになります。 (詳細については、ベイズ推論のセクションを参照してください。) ν = α + βはベータ分布の「サンプルサイズ」と呼ばれますが、厳密に言えば、ベイズの定理で Haldane Beta(0,0) 事前分布を使用する場合にのみ、二項尤度関数の「サンプルサイズ」となることを覚えておく必要があります。

このパラメータ化は、ベイズパラメータ推定において有用である。例えば、複数の個人にテストを実施する場合を考える。各個人のスコア（0 ≤ θ ≤ 1）が母集団レベルのベータ分布から得られると仮定すると、重要な統計量はこの母集団レベルの分布の平均となる。平均パラメータとサンプルサイズパラメータは、形状パラメータαおよびβと^{[ 3 ]の関係にある。}

α = μν、β = (1 − μ ) ν

このパラメータ化では、平均値に対しては情報価値のない事前確率を、正の実数に対してはサンプルサイズが独立しており、事前データや信念によって正当化される場合は漠然とした事前確率 (指数分布やガンマ分布など) を置くことができます。

モードと集中

凹型ベータ分布は、モードと「濃度」によってパラメータ化できます。モード、および濃度、は、通常の形状パラメータを次のように定義するために使用できます。^[⁷^] モード、を明確に定義するには、、または同等のが必要です。代わりに濃度をと定義すると、条件はに簡略化され、におけるベータ密度は次のように表すことができます。ここで、は十分な統計量、およびを直接スケーリングします。また、の極限では、分布が平坦になることにも注意してください。 $\alpha ,\beta >1$ $\omega ={\frac {\alpha -1}{\alpha +\beta -2}}$ $\kappa =\alpha +\beta$ ${\begin{aligned}\alpha &=\omega (\kappa -2)+1\\\beta &=(1-\omega )(\kappa -2)+1\end{aligned}}$ $0<\omega <1$ $\alpha ,\beta >1$ $\kappa >2$ $c=\alpha +\beta -2$ $c>0$ $\alpha =1+c\omega$ $\beta =1+c(1-\omega )$ $f(x;\omega ,c)={\frac {x^{c\omega }(1-x)^{c(1-\omega )}}{\mathrm {B} {\bigl (}1+c\omega ,1+c(1-\omega ){\bigr )}}}$ $c$ $\log(x)$ $\log(1-x)$ $c\to 0$

平均と分散

上記のセクションでベータ分布の平均と分散の方程式として示した連立方程式を、元のパラメータαとβを用いて解くと、 αとβのパラメータを平均（ μ）と分散（var）を用いて表すことができます

${\begin{aligned}\nu &=\alpha +\beta ={\frac {\mu (1-\mu )}{\mathrm {var} }}-1,{\text{ where }}\nu =(\alpha +\beta )>0,{\text{ therefore: }}{\text{var}}<\mu (1-\mu )\\\alpha &=\mu \nu =\mu \left({\frac {\mu (1-\mu )}{\text{var}}}-1\right),{\text{ if }}{\text{var}}<\mu (1-\mu )\\\beta &=(1-\mu )\nu =(1-\mu )\left({\frac {\mu (1-\mu )}{\text{var}}}-1\right),{\text{ if }}{\text{var}}<\mu (1-\mu ).\end{aligned}}$

ベータ分布のこのパラメータ化は、元のパラメータαとβに基づくものよりも直感的な理解につながる可能性があります。例えば、モード、歪度、過剰尖度、微分エントロピーを平均と分散で表すと、次のようになります。

4つのパラメータ

2つの形状パラメータαとβを持つベータ分布は、範囲[0,1]または(0,1)でサポートされます。分布の位置とスケールを変更するには、分布の最小値aと最大値c（c > a）を表す2つのパラメータを追加し^、^無次元変数xを新しい変数y（サポート[ a , c ]または( a , c )）とパラメータaおよび^cに置き換える線形変換によって変更します

$y=x(c-a)+a,{\text{ therefore }}x={\frac {y-a}{c-a}}.$

4 パラメータのベータ分布の確率密度関数は、2 パラメータの分布に等しく、範囲 ( c − a ) でスケーリングされます (密度曲線の下の合計面積が確率 1 に等しくなります)。また、"y" 変数は次のようにシフトされ、スケーリングされます。 ${\begin{aligned}f(y;\alpha ,\beta ,a,c)={\frac {f(x;\alpha ,\beta )}{c-a}}&={\frac {\left({\frac {y-a}{c-a}}\right)^{\alpha -1}\left({\frac {c-y}{c-a}}\right)^{\beta -1}}{(c-a)B(\alpha ,\beta )}}\\[1ex]&={\frac {(y-a)^{\alpha -1}(c-y)^{\beta -1}}{(c-a)^{\alpha +\beta -1}B(\alpha ,\beta )}}.\end{aligned}}$

ランダム変数Yが 4 つのパラメータα、β、a、cを持つベータ分布に従うことは次のように表されます。

$Y\sim \operatorname {Beta} (\alpha ,\beta ,a,c).$

中心位置のいくつかの尺度は、次のように（（c − a）によって）スケーリングされ、（aによって）シフトされます。

${\begin{aligned}\mu _{Y}&=\mu _{X}(c-a)+a\\[1ex]&={\frac {\alpha }{\alpha +\beta }}\left(c-a\right)+a={\frac {\alpha c+\beta a}{\alpha +\beta }}\end{aligned}}$

${\begin{aligned}{\text{mode}}(Y)&={\text{mode}}(X)(c-a)+a\\[1ex]&={\frac {\alpha -1}{\alpha +\beta -2}}\left(c-a\right)+a\\[1ex]&={\frac {(\alpha -1)c+(\beta -1)a}{\alpha +\beta -2}}\ ,&{\text{ if }}\alpha ,\,\beta >1\end{aligned}}$

${\begin{aligned}{\text{median}}(Y)&={\text{median}}(X)(c-a)+a\\[1ex]&=I_{\frac {1}{2}}^{[-1]}(\alpha ,\beta )\left(c-a\right)+a\end{aligned}}$

注意: 幾何平均と調和平均は、平均値、中央値、最頻値のように線形変換では変換できません。

Yの形状パラメータは平均と分散で次のように表される。

${\begin{aligned}\alpha &={\frac {\left(a-\mu _{Y}\right)\left(a\,c-a\,\mu _{Y}-c\,\mu _{Y}+\mu _{Y}^{2}+\sigma _{Y}^{2}\right)}{\sigma _{Y}^{2}(c-a)}}\\\beta &=-{\frac {\left(c-\mu _{Y}\right)\left(a\,c-a\,\mu _{Y}-c\,\mu _{Y}+\mu _{Y}^{2}+\sigma _{Y}^{2}\right)}{\sigma _{Y}^{2}(c-a)}}\end{aligned}}$

統計的分散尺度は、範囲（ c − a）によって、平均偏差については線形に、分散については非線形にスケーリングされます（すでに平均を中心としているのでシフトする必要はありません）。

${\begin{aligned}&{\text{(mean deviation around mean)}}(Y)\\[1ex]&=({\text{(mean deviation around mean)}}(X))(c-a)\\&={\frac {2\alpha ^{\alpha }\beta ^{\beta }}{\mathrm {B} (\alpha ,\beta )(\alpha +\beta )^{\alpha +\beta +1}}}(c-a)\end{aligned}}$ ${\text{var}}(Y)={\text{var}}(X)(c-a)^{2}={\frac {\alpha \beta (c-a)^{2}}{(\alpha +\beta )^{2}(\alpha +\beta +1)}}.$

歪度と過剰尖度は無次元量（平均を中心とし標準偏差で正規化されたモーメント）であるため、パラメータaとcとは独立しており、したがって上記のXに関する式（サポート[0,1]または(0,1)）と等しくなります。

${\text{skewness}}(Y)={\text{skewness}}(X)={\frac {2(\beta -\alpha ){\sqrt {\alpha +\beta +1}}}{(\alpha +\beta +2){\sqrt {\alpha \beta }}}}.$

${\text{kurtosis excess}}(Y)={\text{kurtosis excess}}(X)={\frac {6\left[(\alpha -\beta )^{2}(\alpha +\beta +1)-\alpha \beta (\alpha +\beta +2)\right]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}$

性質

中心傾向の尺度

最頻値

α , β > 1のベータ分布に従う確率変数Xの最頻値は、分布の最も可能性の高い値（PDF のピークに対応）であり、次の式で表されます。^[¹^]

${\frac {\alpha -1}{\alpha +\beta -2}}.$

両方のパラメータが1未満（α、β <1）の場合、これは反モード、つまり確率密度曲線の最低点です。^{[ 8 ]}

α = βとすると、モードの式は 1/2 に簡略化され、α = β > 1 の場合にモード（α、β < 1の場合は反モード）が分布の中心にあることが示されます。これらのケースでは対称です。αとβの任意の値に対するモードケースの完全なリストについては、この記事の「形状」セクションを参照してください。これらのケースの多くでは、密度関数の最大値は、一方または両方の端で発生します。場合によっては、端で発生する密度関数の（最大）値は有限です。たとえば、α = 2、β = 1 （またはα = 1、β = 2）の場合、密度関数は、両端で有限である直角三角形の分布になります。他の多くの場合、一方の端に特異点があり、密度関数の値が無限大に近づきます。例えば、 α = β = 1/2の場合、ベータ分布は簡略化されて逆正弦分布となる。数学者の間では、これらのケースのいくつか、および端（x = 0、x = 1）をモードと呼べるかどうかについて議論がある。^[⁹^]^[²^]

端が密度関数の領域の一部であるかどうか
特異点がモードと呼べるかどうか
2つの最大値を持つケースを二峰性と呼ぶべきかどうか

中央値

ベータ分布の中央値は、正規化された不完全ベータ関数が成り立つ唯一の実数です。任意のαとβの値に対して、ベータ分布の中央値を表す一般的な閉形式表現は存在しません。パラメータαとβの特定の値に対する閉形式表現は以下のとおりです。 $x=I_{1/2}^{[-1]}(\alpha ,\beta )$ $I_{x}(\alpha ,\beta )={\tfrac {1}{2}}$

対称的なケースでは、 α = β、中央値 = 1/2 です。
α = 1かつβ > 0の場合、中央値（この場合はべき関数分布の鏡像となる） $=1-2^{-1/\beta }$
α > 0 かつβ = 1の場合、中央値 = （この場合はべき関数分布^[⁹^]） $2^{-1/\alpha }$
α = 3、β = 2の場合、中央値 = 0.6142724318676105...となり、 4次方程式1 − 8 x ³ + 6 x ⁴ = 0の実数解は[0,1]にあります。
α = 2、β = 3の場合、中央値 = 0.38572756813238945... = 1−median(Beta(3, 2))

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づく場合の制限です。

${\begin{aligned}\lim _{\beta \to 0}{\text{median}}=\lim _{\alpha \to \infty }{\text{median}}=1,\\\lim _{\alpha \to 0}{\text{median}}=\lim _{\beta \to \infty }{\text{median}}=0.\end{aligned}}$

αとβが1以上の場合のベータ分布の中央値の妥当な近似値は、次の式で与えられる^{[ 10 ]。}

${\text{median}}\approx {\frac {\alpha -{\tfrac {1}{3}}}{\alpha +\beta -{\tfrac {2}{3}}}}{\text{ for }}\alpha ,\beta \geq 1.$

α , β ≥ 1の場合、この近似値の相対誤差（絶対誤差を中央値で割ったもの）は4%未満であり、α ≥ 2 およびβ ≥ 2 のいずれの場合も1%未満です。平均値と最頻値の差で割った絶対誤差も同様に小さい値です。

平均

2つのパラメータαとβを持つベータ分布の確率変数Xの期待値（平均）（μ ）は、これらのパラメータの比β / αのみの関数である：^[¹^]

${\begin{aligned}\mu =\operatorname {E} [X]&=\int _{0}^{1}xf(x;\alpha ,\beta )\,dx\\&=\int _{0}^{1}x\,{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\,dx\\&={\frac {\alpha }{\alpha +\beta }}\\&={\frac {1}{1+{\frac {\beta }{\alpha }}}}\end{aligned}}$

上記の式においてα = βとするとμ = 1/2となり、α = βの場合には平均が分布の中心に位置する、つまり対称であることがわかります。また、上記の式から以下の極限が得られます。

${\begin{aligned}\lim _{{\frac {\beta }{\alpha }}\to 0}\mu =1\\\lim _{{\frac {\beta }{\alpha }}\to \infty }\mu =0\end{aligned}}$

したがって、β / α → 0、またはα / β → ∞の場合、平均は右端x = 1に位置します。これらの限界比では、ベータ分布は、右端 x = 1 に確率1でディラックのデルタ関数のスパイクを持つ1点退化分布となり、それ以外の場所では確率0となります。右端x = 1には100%の確率（絶対確実性）が集中します。

同様に、β / α → ∞、またはα / β → 0の場合、平均は左端のx = 0に位置します。ベータ分布は、左端のx = 0に確率1でディラックのデルタ関数のスパイクを持つ1点退化分布となり、それ以外の場所では確率は0となります。左端のx = 0には100%の確率（絶対確実性）が集中しています。以下は、一方のパラメータが有限（非ゼロ）で、もう一方のパラメータがこれらの限界に近づく場合の限界です。

${\begin{aligned}\lim _{\beta \to 0}\mu =\lim _{\alpha \to \infty }\mu =1\\\lim _{\alpha \to 0}\mu =\lim _{\beta \to \infty }\mu =0\end{aligned}}$

典型的な単峰性分布（最頻値が中心に位置し、最頻値の両側に変曲点があり、裾が長い分布）（Beta( α , β )がα , β >2 ）の場合、標本平均値（位置の推定値として）は標本中央値ほど堅牢ではないことが知られていますが、均一または「U字型」の双峰性分布（Beta( α , β )がα , β≤1）の場合、最頻値が分布の両端に位置する場合、その逆になります。MostellerとTukeyが述べているように（[ ^{11 ] p.207}）、2つの極端な観測値の平均にはすべての標本情報が使用されます。これは、裾の短い分布では、極端な観測値により多くの重みが与えられるべきであることを示しています。対照的に、分布の端にモードを持つ「U 字型」の双峰性分布（Beta( α , β )がα , β ≤ 1）の中央値は、サンプル中央値によって極端なサンプル観測が考慮されなくなるため、堅牢ではないということになります。この実際の応用は、ランダムウォークなどで発生します。ランダムウォークで最後に原点を訪れた時間の確率は、逆正弦分布Beta(1/2, 1/2) として分布するためです。^{[ 5 ]}^{[ 12 ]}ランダムウォークの実現値の平均は、中央値（この場合は不適切なサンプル測定推定値）よりもはるかに堅牢な推定値です。

幾何平均

確率変数Xを持つ分布の幾何平均G _Xの対数はln( X )の算術平均、またはそれと同等の期待値である。

$\ln G_{X}=\operatorname {E} [\ln X]$

ベータ分布の場合、期待値の積分は次のようになります。

${\begin{aligned}\operatorname {E} [\ln X]&=\int _{0}^{1}\ln x\,f(x;\alpha ,\beta )\,dx\\[4pt]&=\int _{0}^{1}\ln x\,{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}\,\int _{0}^{1}{\frac {\partial x^{\alpha -1}(1-x)^{\beta -1}}{\partial \alpha }}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}{\frac {\partial }{\partial \alpha }}\int _{0}^{1}x^{\alpha -1}(1-x)^{\beta -1}\,dx\\[4pt]&={\frac {1}{\mathrm {B} (\alpha ,\beta )}}{\frac {\partial \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}\\[4pt]&={\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}\\[4pt]&={\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \alpha }}\\[4pt]&=\psi (\alpha )-\psi (\alpha +\beta )\end{aligned}}$

ここでψはディガンマ関数です。

したがって、形状パラメータαとβを持つベータ分布の幾何平均は、次のようにαとβの二重ガンマ関数の指数になります。

$G_{X}=e^{\operatorname {E} [\ln X]}=e^{\psi (\alpha )-\psi (\alpha +\beta )}$

形状パラメータが等しいベータ分布（α = β）の場合、歪度 = 0、最頻値 = 平均値 = 中央値 = 1/2 となるが、幾何平均は1/2未満（0 < G _X < 1/2）となる。これは、対数変換によってXの値がゼロに近づくにつれて ln( X ) が負の無限大に大きく近づくのに対し、X → 1の場合には ln( X ) がゼロに向かって平坦化することから、 Xの値がゼロに近づくにつれて強く重み付けされるためである。

直線α = βに沿って、次の制限が適用されます。

${\begin{aligned}&\lim _{\alpha =\beta \to 0}G_{X}=0\\&\lim _{\alpha =\beta \to \infty }G_{X}={\tfrac {1}{2}}\end{aligned}}$

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。

${\begin{aligned}\lim _{\beta \to 0}G_{X}=\lim _{\alpha \to \infty }G_{X}=1\\\lim _{\alpha \to 0}G_{X}=\lim _{\beta \to \infty }G_{X}=0\end{aligned}}$

添付のグラフは、形状パラメータαとβ が0から2までの平均と幾何平均の差を示しています。αとβが無限大に近づくにつれて両者の差は0に近づき、 αとβの値が0に近づくにつれて差は大きくなりますが、形状パラメータαとβに関して幾何平均が明らかに非対称であることが分かります。β とαの大きさを入れ替えた場合よりも、αの値が小さい場合の方が幾何平均と平均の差は大きくなります。

NLJohnsonとS.Kotz ^{[ 1 ]}は、二ガンマ関数ψ ( α )≈ln( α −1/2)の対数近似を提案しており、これは幾何平均の次の近似値をもたらす。

$G_{X}\approx {\frac {\alpha \,-{\frac {1}{2}}}{\alpha +\beta -{\frac {1}{2}}}}{\text{ if }}\alpha ,\beta >1.$

この近似における相対誤差の数値は次のとおりです。 [ ( α = β = 1): 9.39% ]; [ ( α = β = 2): 1.29% ]; [ ( α = 2、β = 3): 1.51% ]; [ ( α = 3、β = 2): 0.44% ]; [ ( α = β = 3): 0.51% ]; [ ( α = β = 4): 0.26% ]; [ ( α = 3、β = 4): 0.55% ]; [ ( α = 4、β = 3): 0.24% ]。

同様に、幾何平均が1/2になるために必要な形状パラメータの値を計算することができます。パラメータβの値が与えられた場合、幾何平均が1/2になるために必要なもう1つのパラメータ αの値はいくらでしょうか？答えは、（β > 1の場合）、必要なαの値はβ → ∞のにつれてβ + 1/2に近づくということです。たとえば、これらのカップルはすべて同じ 1/2 の幾何平均を持ちます: [ β = 1, α = 1.4427 ]、[ β = 2, α = 2.46958 ]、[ β = 3, α = 3.47943 ]、[ β = 4, α = 4.48449 ]、[ β = 5, α = 5.48756 ]、[ β = 10、α = 10.4938 ]、[ β = 100、α = 100.499 ]。

幾何平均の基本的な性質は、他の平均では誤りであることが証明できるが、

$G{\left({\frac {X_{i}}{Y_{i}}}\right)}={\frac {G(X_{i})}{G(Y_{i})}}$

このため、正規化された結果、つまり基準値に対する比率として提示された結果を平均化する場合、幾何平均が唯一の正しい平均となります。 ^{[ 13 ]} これは、ベータ分布がパーセンテージのランダムな挙動に適したモデルであり、特に割合の統計的モデリングに適しているためです。幾何平均は最尤推定において中心的な役割を果たします。「パラメータ推定、最尤」のセクションを参照してください。実際には、最尤推定を行う際には、ランダム変数 X に基づく幾何平均G _{X の}他に、もう1つの幾何平均が自然に現れます。それは、線形変換(1 − X )に基づく幾何平均で、 Xの鏡像であり、G ₍₁₋_X₎と表記されます。

$G_{1-X}=e^{\operatorname {E} [\ln(1-X)]}=e^{\psi (\beta )-\psi (\alpha +\beta )}$

直線α = βに沿って、次の制限が適用されます。

${\begin{aligned}&\lim _{\alpha =\beta \to 0}G_{1-X}=0\\&\lim _{\alpha =\beta \to \infty }G_{1-X}={\tfrac {1}{2}}\end{aligned}}$

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。

${\begin{aligned}\lim _{\beta \to 0}G_{(1-X)}=\lim _{\alpha \to \infty }G_{(1-X)}=0\\\lim _{\alpha \to 0}G_{(1-X)}=\lim _{\beta \to \infty }G_{(1-X)}=1\end{aligned}}$

おおよその値は次のとおりです。

$G_{(1-X)}\approx {\frac {\beta -{\frac {1}{2}}}{\alpha +\beta -{\frac {1}{2}}}}{\text{ if }}\alpha ,\beta >1.$

G _Xと G _{1− X は}どちらも非対称ですが、両方の形状パラメータが等しい場合（α = β ）、幾何平均は等しくなります：G _X = G _{(1− X )}。この等式は、両方の幾何平均の間に見られる以下の対称性から導き出されます。

$G_{X}(\mathrm {B} (\alpha ,\beta ))=G_{1-X}(\mathrm {B} (\beta ,\alpha )).$

調和平均

ベータ分布の調和平均とαおよびβの関係（0～2）

確率変数Xを持つ分布の調和平均（H _X ）の逆数は、 1/ Xの算術平均、すなわちその期待値である。したがって、形状パラメータαとβを持つベータ分布の調和平均（H _X ）は次のようになる。

${\begin{aligned}H_{X}&={\frac {1}{\operatorname {E} \left[{\frac {1}{X}}\right]}}\\&={\frac {1}{\int _{0}^{1}{\frac {f(x;\alpha ,\beta )}{x}}\,dx}}\\&={\frac {1}{\int _{0}^{1}{\frac {x^{\alpha -1}(1-x)^{\beta -1}}{x\mathrm {B} (\alpha ,\beta )}}\,dx}}\\&={\frac {\alpha -1}{\alpha +\beta -1}}{\text{ if }}\alpha >1{\text{ and }}\beta >0\\\end{aligned}}$

α < 1のベータ分布の調和平均 (H X )は定義され_ていません。これは、定義式が形状パラメータα が1 未満の場合に [0, 1] で制限されないためです。

上記の式で α = βとすると、

$H_{X}={\frac {\alpha -1}{2\alpha -1}},$

α = βの場合、調和平均は 0 ( α = β = 1) から 1/2 ( α = β → ∞) の範囲にあることがわかります。

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。

${\begin{aligned}&\lim _{\alpha \to 0}H_{X}{\text{ is undefined}}\\&\lim _{\alpha \to 1}H_{X}=\lim _{\beta \to \infty }H_{X}=0\\&\lim _{\beta \to 0}H_{X}=\lim _{\alpha \to \infty }H_{X}=1\end{aligned}}$

4パラメータの場合の最尤推定では、幾何平均に加えて調和平均が重要な役割を果たします。実際、4パラメータの場合の最尤推定では、確率変数Xに基づく調和平均H _Xに加えて、もう1つの調和平均が自然に現れます。それは、 Xの鏡像である線形変換 (1 − X ) に基づく調和平均で、 H _{1 −}_Xと表されます。

$H_{1-X}={\frac {1}{\operatorname {E} \left[{\frac {1}{1-X}}\right]}}={\frac {\beta -1}{\alpha +\beta -1}}{\text{ if }}\beta >1,{\text{ and }}\alpha >0.$

β < 1のベータ分布の調和平均（H（1−X））は定義され_{ていませ}ん。これは、その定義式が、形状パラメータβが1未満の場合に[0, 1]で有界ではないためです。

上記の式で α = βとすると、

$H_{(1-X)}={\frac {\beta -1}{2\beta -1}},$

α = βの場合、調和平均は 0 ( α = β = 1) から 1/2 ( α = β → ∞) の範囲にあることがわかります。

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。

${\begin{aligned}&\lim _{\beta \to 0}H_{1-X}{\text{ is undefined}}\\&\lim _{\beta \to 1}H_{1-X}=\lim _{\alpha \to \infty }H_{1-X}=0\\&\lim _{\alpha \to 0}H_{1-X}=\lim _{\beta \to \infty }H_{1-X}=1\end{aligned}}$

H _Xと H _{1− X は}どちらも非対称ですが、両方の形状パラメータが等しい場合（α = β ）、調和平均は等しくなります：H _X = H _{1− X}。この等式は、両方の調和平均の間に見られる以下の対称性から導き出されます。

$H_{X}(\mathrm {B} (\alpha ,\beta ))=H_{1-X}(\mathrm {B} (\beta ,\alpha )){\text{ if }}\alpha ,\beta >1.$

統計的分散の尺度

分散

パラメータαとβを持つベータ分布の確率変数Xの分散（平均を中心とした2次モーメント）は、次の式で表される。^[¹^]^[¹⁴^]

$\operatorname {var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]={\frac {\alpha \beta }{\left(\alpha +\beta \right)^{2}\left(\alpha +\beta +1\right)}}$

上記の式で α = βとすると、

$\operatorname {var} (X)={\frac {1}{4(2\beta +1)}},$

α = βの場合、分散はα = βが増加するにつれて単調に減少することを示しています。この式でα = β = 0と設定すると、最大分散 var( X ) = 1/4 ^{[ 1 ]}が求められますが、これは極限に近づいたα = β = 0の場合にのみ発生します。

ベータ分布は、平均μ （0 < μ < 1）と標本サイズν = α + β（ν > 0）でパラメータ化することもできます（平均と標本サイズのサブセクションを参照）。

${\begin{aligned}\alpha &=\mu \nu ,&{\text{ where }}\nu =(\alpha +\beta )>0,\\\beta &=(1-\mu )\nu ,&{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}$

このパラメータ化を使用すると、平均μとサンプルサイズνに関して分散を次のように表すことができます。

$\operatorname {var} (X)={\frac {\mu (1-\mu )}{1+\nu }}$

ν = α + β > 0であるため、 var( X ) < μ (1 − μ )になります。

対称分布の場合、平均は分布の中央、μ = 1/2にあるため、次のようになります。

$\operatorname {var} (X)={\frac {1}{4(1+\nu )}}{\text{ if }}\mu ={\tfrac {1}{2}}$

また、上記の式から、次の限界値（指定された変数のみが限界値に近づく）が得られます。

${\begin{aligned}&\lim _{\beta \to 0}\operatorname {var} (X)=\lim _{\alpha \to 0}\operatorname {var} (X)=\lim _{\beta \to \infty }\operatorname {var} (X)=\lim _{\alpha \to \infty }\operatorname {var} (X)=0\\&\lim _{\nu \to \infty }\operatorname {var} (X)=\lim _{\mu \to 0}\operatorname {var} (X)=\lim _{\mu \to 1}\operatorname {var} (X)=0\\&\lim _{\nu \to 0}\operatorname {var} (X)=\mu (1-\mu )\end{aligned}}$

幾何分散と共分散

ランダム変数Xを持つ分布の幾何分散の対数 ln(var _GX ) は、 Xの幾何平均ln( G _X ) を中心としたXの対数の2次モーメントです。

${\begin{aligned}\ln \operatorname {var} _{GX}&=\operatorname {E} \left[\left(\ln X-\ln G_{X}\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln X-\operatorname {E} \left[\ln X\right]\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln X\right)^{2}\right]-\left(\operatorname {E} [\ln X]\right)^{2}\\&=\operatorname {var} [\ln X]\end{aligned}}$

したがって、幾何分散は次のようになります。

$\operatorname {var} _{GX}=e^{\operatorname {var} [\ln X]}$

フィッシャー情報行列と対数尤度関数の曲率には、反映された変数1 − Xの幾何分散の対数と、 Xと1 − Xの間の幾何共分散の対数が次のように表されます。

${\begin{aligned}\ln \operatorname {var_{G(1-X)}} &=\operatorname {E} \left[\left(\ln(1-X)-\ln G_{1-X}\right)^{2}\right]\\&=\operatorname {E} \left[\left(\ln(1-X)-\operatorname {E} [\ln(1-X)]\right)^{2}\right]\\&=\operatorname {E} \left[(\ln(1-X))^{2}\right]-\left(\operatorname {E} [\ln(1-X)]\right)^{2}\\&=\operatorname {var} [\ln(1-X)]\\&\\\operatorname {var_{G(1-X)}} &=e^{\operatorname {var} [\ln(1-X)]}\\&\\\ln \operatorname {cov_{G{X,1-X}}} &=\operatorname {E} [(\ln X-\ln G_{X})(\ln(1-X)-\ln G_{1-X})]\\&=\operatorname {E} [(\ln X-\operatorname {E} [\ln X])(\ln(1-X)-\operatorname {E} [\ln(1-X)])]\\&=\operatorname {E} \left[\ln X\ln(1-X)\right]-\operatorname {E} [\ln X]\operatorname {E} [\ln(1-X)]\\&=\operatorname {cov} [\ln X,\ln(1-X)]\\&\\\operatorname {cov} _{G{X,(1-X)}}&=e^{\operatorname {cov} [\ln X,\ln(1-X)]}\end{aligned}}$

ベータ分布の場合、高次の対数モーメントは、ベータ分布を2つのガンマ分布の比として表現し、積分微分することで導出できます。これらは高次のポリガンマ関数で表すことができます。「対数変換された確率変数のモーメント」のセクションを参照してください。対数変数の分散とln Xおよびln(1− X ) の共分散は、以下のとおりです。

$\operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )$ $\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )$ $\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )$

ここで、三ガンマ関数（ψ ₁ ( α )と表記）は、ポリガンマ関数の2番目であり、二ガンマ関数の導関数として定義されます。

$\psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{d\alpha ^{2}}}={\frac {d\psi (\alpha )}{d\alpha }}.$

したがって、

$\ln \operatorname {var} _{GX}=\operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )$ $\ln \operatorname {var} _{G(1-X)}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )$ $\ln \operatorname {cov} _{GX,1-X}=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )$

添付のグラフは、形状パラメータαおよびβに対する対数幾何分散および対数幾何共分散を示しています。グラフは、形状パラメータαおよびβが2より大きい場合、対数幾何分散および対数幾何共分散が0に近くなることを示しています。また、形状パラメータαおよびβが1未満の場合は、対数幾何分散の値が急激に増加します。対数幾何分散は、形状パラメータのすべての値に対して正の値です。対数幾何共分散は、形状パラメータのすべての値に対して負の値であり、 αおよびβが1未満の場合は大きな負の値になります。

以下は、1 つのパラメータが有限 (ゼロ以外) で、もう 1 つのパラメータがこれらの制限に近づいている場合の制限です。

${\begin{aligned}&\lim _{\alpha \to 0}\ln \operatorname {var} _{GX}=\lim _{\beta \to 0}\ln \operatorname {var} _{G(1-X)}=\infty \\&\lim _{\beta \to 0}\ln \operatorname {var} _{GX}=\lim _{\alpha \to \infty }\ln \operatorname {var} _{GX}=\lim _{\alpha \to 0}\ln \operatorname {var} _{G(1-X)}=\lim _{\beta \to \infty }\ln \operatorname {var} _{G(1-X)}=0\\&\lim _{\alpha \to \infty }\ln \operatorname {cov} _{GX,(1-X)}=\lim _{\beta \to \infty }\ln \operatorname {cov} _{GX,(1-X)}=0\\&\lim _{\beta \to \infty }\ln \operatorname {var} _{GX}=\psi _{1}(\alpha )\\&\lim _{\alpha \to \infty }\ln \operatorname {var} _{G(1-X)}=\psi _{1}(\beta )\\&\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)}=-\psi _{1}(\beta )\\&\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)}=-\psi _{1}(\alpha )\end{aligned}}$

2 つのパラメータが変化する制限:

${\begin{aligned}&\lim _{\alpha \to \infty }(\lim _{\beta \to \infty }\ln \operatorname {var} _{GX})=\lim _{\beta \to \infty }(\lim _{\alpha \to \infty }\ln \operatorname {var} _{G(1-X)})=\lim _{\alpha \to \infty }(\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)})=\lim _{\beta \to \infty }(\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)})=0\\&\lim _{\alpha \to \infty }(\lim _{\beta \to 0}\ln \operatorname {var} _{GX})=\lim _{\beta \to \infty }(\lim _{\alpha \to 0}\ln \operatorname {var} _{G(1-X)})=\infty \\&\lim _{\alpha \to 0}(\lim _{\beta \to 0}\ln \operatorname {cov} _{GX,(1-X)})=\lim _{\beta \to 0}(\lim _{\alpha \to 0}\ln \operatorname {cov} _{GX,(1-X)})=-\infty \end{aligned}}$

ln(var _GX ) と ln(var _{G (1 − X )} ) はどちらも非対称ですが、形状パラメータが等しい場合、つまりα = βの場合、ln(var _GX ) = ln(var _{G (1− X )} ) が成り立ちます。この等式は、両方の対数幾何分散の間に示される次の対称性から導かれます。

$\ln \operatorname {var} _{GX}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {var} _{G(1-X)}(\mathrm {B} (\beta ,\alpha )).$

対数幾何共分散は対称です。

$\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\beta ,\alpha ))$

平均値の周りの平均絶対偏差

形状パラメータαとβを持つベータ分布の平均絶対偏差は次式で表される: ^[⁹^]

$\operatorname {E} [|X-E[X]|]={\frac {2\alpha ^{\alpha }\beta ^{\beta }}{\mathrm {B} (\alpha ,\beta )(\alpha +\beta )^{\alpha +\beta +1}}}$

平均値の周りの平均絶対偏差は、最頻値の両側に裾と変曲点を持つベータ分布、すなわちα、β > 2のBeta( α、 β )分布において、標準偏差よりも統計的分散のより堅牢な推定値となります。これは、平均からの二乗偏差ではなく、線形（絶対）偏差に依存するためです。したがって、平均からの非常に大きな偏差の影響は、標準偏差ほど過度に重み付けされません。

NLJohnsonとS.Kotz ^[¹^]は、ガンマ関数のスターリング近似を用いて、形状パラメータの値が1より大きい場合の次の近似値を導出した（この近似値の相対誤差はα = β = 1の場合にわずか-3.5%であり、 α → ∞、β → ∞のにつれてゼロに減少する）。

${\begin{aligned}{\frac {\text{mean abs. dev. from mean}}{\text{standard deviation}}}&={\frac {\operatorname {E} [|X-E[X]|]}{\sqrt {\operatorname {var} (X)}}}\\&\approx {\sqrt {\frac {2}{\pi }}}\left(1+{\frac {7}{12(\alpha +\beta )}}{}-{\frac {1}{12\alpha }}-{\frac {1}{12\beta }}\right),{\text{ if }}\alpha ,\beta >1.\end{aligned}}$

極限α → ∞、β → ∞ では、平均絶対偏差と標準偏差の比（ベータ分布の場合）は、正規分布の同じ測度の比と等しくなります。α = β = 1の場合、この比はに等しくなるため、α = β = 1 からα、β → ∞ にかけて比は8.5 % 減少します。α = β = 0 の場合、標準偏差は平均の周りの平均絶対偏差と正確に等しくなります。したがって、この比は、α = β = 0 から α = β = 1 にかけて 15% 減少し、 α = β = 0からα 、 β → ∞にかけて25%減少します。ただし、α → 0 またはβ → 0 のような歪んだベータ分布の場合、標準偏差と平均絶対偏差の比は無限大に近づきます（ただし、それぞれ個別には 0 に近づきます）。これは、平均絶対偏差が標準偏差よりも速く 0 に近づくためです。 ${\sqrt {\frac {2}{\pi }}}$ ${\frac {\sqrt {3}}{2}}$

平均μとサンプルサイズν = α + β > 0 に関するパラメータ化を使用すると、

α = μν、β = (1 − μ ) ν

平均値の周りの平均絶対偏差は、平均値μと標本サイズνを使って次のように表すことができます。

$\operatorname {E} [|X-E[X]|]={\frac {2\mu ^{\mu \nu }(1-\mu )^{(1-\mu )\nu }}{\nu \mathrm {B} (\mu \nu ,(1-\mu )\nu )}}$

対称分布の場合、平均は分布の中央、μ = 1/2 にあるため、次のようになります。

${\begin{aligned}\operatorname {E} [|X-E[X]|]={\frac {2^{1-\nu }}{\nu \mathrm {B} ({\tfrac {\nu }{2}},{\tfrac {\nu }{2}})}}&={\frac {2^{1-\nu }\Gamma (\nu )}{\nu (\Gamma ({\tfrac {\nu }{2}}))^{2}}}\\\lim _{\nu \to 0}\left(\lim _{\mu \to {\frac {1}{2}}}\operatorname {E} [|X-E[X]|]\right)&={\frac {1}{2}}\\\lim _{\nu \to \infty }\left(\lim _{\mu \to {\frac {1}{2}}}\operatorname {E} [|X-E[X]|]\right)&=0\end{aligned}}$

また、上記の式から、次の限界値（指定された変数のみが限界値に近づく）が得られます。

${\begin{aligned}\lim _{\beta \to 0}\operatorname {E} [|X-E[X]|]&=\lim _{\alpha \to 0}\operatorname {E} [|X-E[X]|]=0\\\lim _{\beta \to \infty }\operatorname {E} [|X-E[X]|]&=\lim _{\alpha \to \infty }\operatorname {E} [|X-E[X]|]=0\\\lim _{\mu \to 0}\operatorname {E} [|X-E[X]|]&=\lim _{\mu \to 1}\operatorname {E} [|X-E[X]|]=0\\\lim _{\nu \to 0}\operatorname {E} [|X-E[X]|]&={\sqrt {\mu (1-\mu )}}\\\lim _{\nu \to \infty }\operatorname {E} [|X-E[X]|]&=0\end{aligned}}$

平均絶対差

ベータ分布の平均絶対差は次のとおりです

${\begin{aligned}\mathrm {MD} &=\int _{0}^{1}\int _{0}^{1}f(x;\alpha ,\beta )\,f(y;\alpha ,\beta )\left|x-y\right|dx\,dy\\[1ex]&={\frac {4}{\alpha +\beta }}{\frac {B(\alpha +\beta ,\alpha +\beta )}{B(\alpha ,\alpha )B(\beta ,\beta )}}\end{aligned}}$

ベータ分布のジニ係数は相対平均絶対差の半分です。

$\mathrm {G} =\left({\frac {2}{\alpha }}\right){\frac {B(\alpha +\beta ,\alpha +\beta )}{B(\alpha ,\alpha )B(\beta ,\beta )}}$

歪度

ベータ分布の歪度（平均を中心とした三次モーメントを分散の3/2乗で正規化した値）は^[¹^]である。

$\gamma _{1}={\frac {\operatorname {E} \left[\left(X-\mu \right)^{3}\right]}{\left(\operatorname {var} (X)\right)^{3/2}}}={\frac {2\left(\beta -\alpha \right){\sqrt {\alpha +\beta +1}}}{\left(\alpha +\beta +2\right){\sqrt {\alpha \beta }}}}.$

上記の式でα = βとすると、γ _{1 = 0 となり、}α = βの場合、分布は対称であり、したがって歪度はゼロであることが再び示されます。α < βの場合は正の歪度（右側）、 α > βの場合は負の歪度（左側）となります。

平均μとサンプルサイズν = α + βによるパラメータ化を使用すると、

${\begin{aligned}\alpha &=\mu \nu ,&{\text{ where }}\nu =(\alpha +\beta )>0,\\\beta &=(1-\mu )\nu ,&{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}$

歪度は平均μと標本サイズνで次のように表すことができます。

$\gamma _{1}={\frac {\operatorname {E} [(X-\mu )^{3}]}{\left(\operatorname {var} (X)\right)^{3/2}}}={\frac {2(1-2\mu ){\sqrt {1+\nu }}}{(2+\nu ){\sqrt {\mu (1-\mu )}}}}.$

歪度は、次のように分散varと平均μだけで表すこともできます。

$\gamma _{1}={\frac {\operatorname {E} [(X-\mu )^{3}]}{(\operatorname {var} (X))^{3/2}}}={\frac {2(1-2\mu ){\sqrt {\operatorname {var} }}}{\mu (1-\mu )+\operatorname {var} }}{\text{ if }}\operatorname {var} <\mu (1-\mu )$

添付の歪度を分散と平均の関数としてプロットすると、最大分散 (1/4) が歪度ゼロおよび対称条件 ( μ = 1/2) と結びついていること、また平均がどちらかの端にあるときに歪度 (正または負の無限大) が最大になり、確率分布の「質量」が端に集中している (最小分散) ことがわかります。

標本サイズν = α + βと分散 var に関して歪度の二乗を表す次の式は、 4つのパラメータのモーメント推定法に役立ちます。

$(\gamma _{1})^{2}={\frac {\left(\operatorname {E} [(X-\mu )^{3}]\right)^{2}}{\left(\operatorname {var} (X)\right)^{3}}}={\frac {4}{(2+\nu )^{2}}}\left({\frac {1}{\operatorname {var} }}-4(1+\nu )\right)$

この式は、 α = βの場合に歪度がゼロになることを正しく示しています。その理由は、その場合（§ 分散を参照）次のとおりです。 $\operatorname {var} ={\frac {1}{4(1+\nu )}}$

対称的なケース（α = β）では、全範囲にわたって歪度 = 0 となり、次の制限が適用されます。

$\lim _{\alpha =\beta \to 0}\gamma _{1}=\lim _{\alpha =\beta \to \infty }\gamma _{1}=\lim _{\nu \to 0}\gamma _{1}=\lim _{\nu \to \infty }\gamma _{1}=\lim _{\mu \to {\frac {1}{2}}}\gamma _{1}=0$

非対称の場合（α ≠ β）には、上記の式から次の限界値（注目する変数のみが限界値に近づく）が得られます。

${\begin{aligned}&\lim _{\alpha \to 0}\gamma _{1}=\lim _{\mu \to 0}\gamma _{1}=\infty \\&\lim _{\beta \to 0}\gamma _{1}=\lim _{\mu \to 1}\gamma _{1}=-\infty \\&\lim _{\alpha \to \infty }\gamma _{1}=-{\frac {2}{\sqrt {\beta }}},\quad \lim _{\beta \to 0}(\lim _{\alpha \to \infty }\gamma _{1})=-\infty ,\quad \lim _{\beta \to \infty }(\lim _{\alpha \to \infty }\gamma _{1})=0\\&\lim _{\beta \to \infty }\gamma _{1}={\frac {2}{\sqrt {\alpha }}},\quad \lim _{\alpha \to 0}(\lim _{\beta \to \infty }\gamma _{1})=\infty ,\quad \lim _{\alpha \to \infty }(\lim _{\beta \to \infty }\gamma _{1})=0\\&\lim _{\nu \to 0}\gamma _{1}={\frac {1-2\mu }{\sqrt {\mu (1-\mu )}}},\quad \lim _{\mu \to 0}(\lim _{\nu \to 0}\gamma _{1})=\infty ,\quad \lim _{\mu \to 1}(\lim _{\nu \to 0}\gamma _{1})=-\infty \end{aligned}}$

尖度

ベータ分布は音響解析においてギアの損傷を評価するために適用されており、ベータ分布の尖度はギアの状態を示す良い指標であることが報告されている。^{[ 15 ]}尖度は、人の足音によって発生する地震信号を他の信号と区別するためにも使用されている。地上を移動する人や他の物体は地震波という形で連続信号を生成するため、それらが生成する地震波に基づいて異なる物体を区別することができる。尖度は衝撃信号に敏感であるため、車両、風、騒音などによって生成される他の信号よりも、人の足音によって生成される信号に対してはるかに敏感である。^{[ 16 ]} 残念ながら、尖度の表記法は標準化されていない。 Kenney と Keeping ^{[ 17 ]}は過剰尖度を表す記号 γ ₂を使用しているが、Abramowitz と Stegun ^[¹⁸^]は異なる用語を使用している。尖度（平均を中心とした4次モーメントを分散の2乗で正規化したもの）と過剰尖度の混同を避けるため^[¹⁹^] 、記号を使用する場合は次のように表記する。^[⁹^]^[²⁰^]

${\begin{aligned}{\text{excess kurtosis}}&={\text{kurtosis}}-3\\&={\frac {\operatorname {E} [(X-\mu )^{4}]}{(\operatorname {var} (X))^{2}}}-3\\&={\frac {6[\alpha ^{3}-\alpha ^{2}(2\beta -1)+\beta ^{2}(\beta +1)-2\alpha \beta (\beta +2)]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}\\&={\frac {6[(\alpha -\beta )^{2}(\alpha +\beta +1)-\alpha \beta (\alpha +\beta +2)]}{\alpha \beta (\alpha +\beta +2)(\alpha +\beta +3)}}.\end{aligned}}$

上記の式で α = βとすると、

${\text{excess kurtosis}}=-{\frac {6}{3+2\alpha }}{\text{ if }}\alpha =\beta .$

したがって、対称ベータ分布の場合、過剰尖度は負の値となり、{ α = β } → 0 の極限で最小値 -2 から増加し、{ α = β } → ∞ の極限で最大値 0 に近づきます。-2 は、あらゆる分布（ベータ分布だけでなく、あらゆる種類の分布）が達成できる過剰尖度の最小値です。この最小値は、すべての確率密度がx = 0 とx = 1の両端に完全に集中し、その間に何も存在しないときに達成されます。つまり、両端で確率が 1/2 ずつ等しくなる 2 点ベルヌーイ分布です（コイントス：詳細については、以下の「歪度の二乗で制限される尖度」のセクションを参照してください）。尖度を確率分布の「潜在的な外れ値」（または「潜在的なまれな極端な値」）の尺度として説明することは、ベータ分布を含むすべての分布に当てはまります。ベータ分布において、極値が稀に発生する場合、尖度は高くなります。そうでない場合、尖度は低くなります。α ≠ βの歪んだベータ分布では、モードから離れた側で時折極値が発生するため、過剰尖度は無制限の正の値に達する可能性があります（特に、有限βでα → 0 の場合、または有限αでβ → 0 の場合）。尖度は最小となり、質量密度が両端に均等に集中し（したがって平均が中央に位置し）、両端の間には確率質量密度は存在しません。

平均μとサンプルサイズν = α + βによるパラメータ化を使用すると、

${\begin{aligned}\alpha &{}=\mu \nu ,{\text{ where }}\nu =(\alpha +\beta )>0\\\beta &{}=(1-\mu )\nu ,{\text{ where }}\nu =(\alpha +\beta )>0.\end{aligned}}$

過剰尖度は平均μと標本サイズνを用いて次のように表すことができます。

${\text{excess kurtosis}}={\frac {6}{3+\nu }}{\bigg (}{\frac {(1-2\mu )^{2}(1+\nu )}{\mu (1-\mu )(2+\nu )}}-1{\bigg )}$

過剰尖度は、分散 var とサンプルサイズνという 2 つのパラメータだけで次のように表すこともできます。

${\text{excess kurtosis}}={\frac {6}{(3+\nu )(2+\nu )}}\left({\frac {1}{\text{ var }}}-6-5\nu \right){\text{ if }}{\text{var}}<\mu (1-\mu )$

分散varと平均μに関しては次のようになります。

${\text{excess kurtosis}}={\frac {6{\text{ var }}(1-{\text{ var }}-5\mu (1-\mu ))}{({\text{var }}+\mu (1-\mu ))(2{\text{ var }}+\mu (1-\mu ))}}{\text{ if }}{\text{var}}<\mu (1-\mu )$

過剰尖度を分散と平均の関数としてプロットすると、過剰尖度の最小値 (-2、これはあらゆる分布の過剰尖度の最小値) が、分散の最大値 (1/4) および対称条件、つまり平均が中点 ( μ = 1/2) で発生することと密接に関係していることがわかります。これは、歪度がゼロで、 α = β = 0の対称ケースで発生します。極限では、これは、ディラックのデルタ関数の各端x = 0 およびx = 1で確率が 1/2 で等しく、その他のすべての場所で確率がゼロである 2 点ベルヌーイ分布です(コインを投げるとき、コインの一方の面はx = 0 で、もう一方の面はx = 1 です)。分散が最大になるのは、分布が二峰性であり、両端の 2 つのモード (スパイク) の間に何も存在しないためです。過剰尖度は最小です。つまり、確率密度の「質量」は平均でゼロとなり、両端の2つのピークに集中します。過剰尖度は、確率密度関数が両端に2つのスパイクを持つとき（分布のいずれの場合も）、最小値に達します。つまり、2つのピークの間に何もない、2つのピークを持つ状態です。

一方、プロットは、平均がどちらかの端（μ = 0 またはμ = 1）に近い極端に歪んだケースでは、分散はゼロに近く、分布の平均がどちらかの端に近づくと過剰尖度が急速に無限大に近づくことを示しています。

あるいは、過剰尖度は、歪度の二乗とサンプルサイズ ν という 2 つのパラメータだけで次のように表すこともできます。

${\text{excess kurtosis}}={\frac {6}{3+\nu }}{\bigg (}{\frac {(2+\nu )}{4}}({\text{skewness}})^{2}-1{\bigg )}{\text{ if (skewness)}}^{2}-2<{\text{excess kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}$

この最後の式から、カール・ピアソン^{[ 21 ]}が1世紀以上前にベータ分布について発表したのと同じ極限を得ることができます（後述の「歪度の2乗で制限される尖度」の項を参照）。上記の式でα + β = ν = 0と設定すると、ピアソンの下限値が得られます（この境界値（過剰尖度 + 2 − 歪度² = 0）を下回る歪度と過剰尖度の値はどの分布でも発生しないため、カール・ピアソンはこの境界値より下の領域を「不可能領域」と適切に呼びました）。α + β = ν → ∞の極限は、ピアソンの上限値を決定します。

${\begin{aligned}&\lim _{\nu \to 0}{\text{excess kurtosis}}=({\text{skewness}})^{2}-2\\&\lim _{\nu \to \infty }{\text{excess kurtosis}}={\tfrac {3}{2}}({\text{skewness}})^{2}\end{aligned}}$

したがって：

$({\text{skewness}})^{2}-2<{\text{excess kurtosis}}<{\tfrac {3}{2}}({\text{skewness}})^{2}$

ν = α + βの値は、 ν が0 から無限大 (0 < ν < ∞) までの範囲にあり、過剰尖度と二乗歪度の平面におけるベータ分布の全領域にわたります。

対称的な場合（α = β）には、次の制限が適用されます。

${\begin{aligned}&\lim _{\alpha =\beta \to 0}{\text{excess kurtosis}}=-2\\&\lim _{\alpha =\beta \to \infty }{\text{excess kurtosis}}=0\\&\lim _{\mu \to {\frac {1}{2}}}{\text{excess kurtosis}}=-{\frac {6}{3+\nu }}\end{aligned}}$

非対称の場合（α ≠ β）には、上記の式から次の極限（注目する変数のみが極限に近づく）が得られます。

${\begin{aligned}&\lim _{\alpha \to 0}{\text{excess kurtosis}}=\lim _{\beta \to 0}{\text{excess kurtosis}}=\lim _{\mu \to 0}{\text{excess kurtosis}}=\lim _{\mu \to 1}{\text{excess kurtosis}}=\infty \\&\lim _{\alpha \to \infty }{\text{excess kurtosis}}={\frac {6}{\beta }},{\text{ }}\lim _{\beta \to 0}(\lim _{\alpha \to \infty }{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\beta \to \infty }(\lim _{\alpha \to \infty }{\text{excess kurtosis}})=0\\&\lim _{\beta \to \infty }{\text{excess kurtosis}}={\frac {6}{\alpha }},{\text{ }}\lim _{\alpha \to 0}(\lim _{\beta \to \infty }{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\alpha \to \infty }(\lim _{\beta \to \infty }{\text{excess kurtosis}})=0\\&\lim _{\nu \to 0}{\text{excess kurtosis}}=-6+{\frac {1}{\mu (1-\mu )}},{\text{ }}\lim _{\mu \to 0}(\lim _{\nu \to 0}{\text{excess kurtosis}})=\infty ,{\text{ }}\lim _{\mu \to 1}(\lim _{\nu \to 0}{\text{excess kurtosis}})=\infty \end{aligned}}$

特性関数

特性関数は確率密度関数のフーリエ変換である。ベータ分布の特性関数はクンマーの合流型超幾何関数（第一種）である。^{[ 1 ]}^{[ 18 ]}^{[ 22 ]}

{\begin{aligned}\varphi _{X}(\alpha ;\beta ;t)&=\operatorname {E} \left[e^{itX}\right]\\&=\int _{0}^{1}e^{itx}f(x;\alpha ,\beta )\,dx\\&={}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\!\\&=\sum _{n=0}^{\infty }{\frac {\alpha ^{\overline {n}}(it)^{n}}{(\alpha +\beta )^{\overline {n}}n!}}\\&=1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {(it)^{k}}{k!}}\end{aligned}}

ここで

x^{\overline {n}}=x(x+1)(x+2)\cdots (x+n-1)

は上昇階乗です。t = 0の場合の特性関数の値は 1です

$\varphi _{X}(\alpha ;\beta ;0)={}_{1}F_{1}(\alpha ;\alpha +\beta ;0)=1.$

また、特性関数の実部と虚部は変数tの原点に関して次の対称性を持ちます。

$\operatorname {Re} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\right]=\operatorname {Re} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)\right]$ $\operatorname {Im} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)\right]=-\operatorname {Im} \left[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)\right]$

対称的なケースα = βでは、ベータ分布の特性関数がベッセル関数に簡略化されます。これは、特別なケースα + β = 2 αでは、合流型超幾何関数(第 1 種) が、次のようにクンマーの第 2 変換を使用してベッセル関数(第 1 種の修正ベッセル関数)に簡略化されるためです。 $I_{\alpha -{\frac {1}{2}}}$

${\begin{aligned}{}_{1}F_{1}(\alpha ;2\alpha ;it)&=e^{\frac {it}{2}}{}_{0}F_{1}\left(;\alpha +{\tfrac {1}{2}};{\frac {(it)^{2}}{16}}\right)\\&=e^{\frac {it}{2}}\left({\frac {it}{4}}\right)^{{\frac {1}{2}}-\alpha }\Gamma \left(\alpha +{\tfrac {1}{2}}\right)I_{\alpha -{\frac {1}{2}}}\left({\frac {it}{2}}\right).\end{aligned}}$

添付のグラフでは、対称 ( α = β ) および歪んだ ( α ≠ β ) 場合のベータ分布の特性関数の実部(Re)が表示されています。

その他のモーメント

モーメント生成関数

また、モーメント生成関数は ^{[ 1 ]}^{[ 9 ]}

${\begin{aligned}M_{X}(\alpha ;\beta ;t)&=\operatorname {E} \left[e^{tX}\right]\\[4pt]&=\int _{0}^{1}e^{tx}f(x;\alpha ,\beta )\,dx\\[4pt]&={}_{1}F_{1}(\alpha ;\alpha +\beta ;t)\\[4pt]&=\sum _{n=0}^{\infty }{\frac {\alpha ^{\overline {n}}}{(\alpha +\beta )^{\overline {n}}}}{\frac {t^{n}}{n!}}\\[4pt]&=1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {t^{k}}{k!}}.\end{aligned}}$

特にM _X ( α ; β ; 0) = 1 です。

高次モーメント

モーメント生成関数を用いると、k次の生のモーメントは^{[ 1 ]}の係数で与えられる

$\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}$

モーメント母関数の級数における（指数級数）項の乗算 $\left({\frac {t^{k}}{k!}}\right)$

$\operatorname {E} [X^{k}]={\frac {\alpha ^{\overline {k}}}{(\alpha +\beta )^{\overline {k}}}}=\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}$

ここで、( x ) ^{( k )}は階乗を表すポッホハマー記号である。これは再帰的に次のように書くこともできる。

$\operatorname {E} [X^{k}]={\frac {\alpha +k-1}{\alpha +\beta +k-1}}\operatorname {E} [X^{k-1}].$

モーメント生成関数は正の収束半径を持つので、ベータ分布はそのモーメントによって決定される。^[²³^] $M_{X}(\alpha ;\beta ;\cdot )$

変換された確率変数のモーメント

線形変換、積、反転した確率変数のモーメント

変換された確率変数^{[ 1 ]}に対して、以下の期待値を示すこともできる。ここで、確率変数Xはパラメータαとβを持つベータ分布に従う：X ~ Beta( α , β )。変数1 − Xの期待値は、 Xに基づく期待値の鏡面対称性を持つ：

${\begin{aligned}\operatorname {E} [1-X]&={\frac {\beta }{\alpha +\beta }}\\\operatorname {E} [X(1-X)]&=\operatorname {E} [(1-X)X]={\frac {\alpha \beta }{(\alpha +\beta )(\alpha +\beta +1)}}\end{aligned}}$

ベータ分布の確率密度関数の鏡面対称性により、変数Xと1 − Xに基づく分散は同一であり、Xの共分散（1 − Xは分散の負である：

$\operatorname {var} [(1-X)]=\operatorname {var} [X]=-\operatorname {cov} [X,(1-X)]={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}$

これらは反転変数の期待値です（これらは調和平均に関連しています。§調和平均を参照してください）。

${\begin{aligned}\operatorname {E} \left[{\frac {1}{X}}\right]&={\frac {\alpha +\beta -1}{\alpha -1}}&&{\text{ if }}\alpha >1\\\operatorname {E} \left[{\frac {1}{1-X}}\right]&={\frac {\alpha +\beta -1}{\beta -1}}&&{\text{ if }}\beta >1\end{aligned}}$

変数Xをその鏡像X /(1 − X )で割る次の変換は、「逆ベータ分布」またはベータプライム分布（第2種ベータ分布またはピアソンのタイプVIとも呼ばれる）の期待値をもたらす。 ^{[ 1 ]}

${\begin{aligned}\operatorname {E} \left[{\frac {X}{1-X}}\right]&={\frac {\alpha }{\beta -1}}&&{\text{ if }}\beta >1\\\operatorname {E} \left[{\frac {1-X}{X}}\right]&={\frac {\beta }{\alpha -1}}&&{\text{ if }}\alpha >1\end{aligned}}$

これらの変換された変数の分散は、対応する変数を中心とした2次モーメントの期待値として積分によって得ることができます。

${\begin{aligned}\operatorname {var} \left[{\frac {1}{X}}\right]&=\operatorname {E} \left[\left({\frac {1}{X}}-\operatorname {E} \left[{\frac {1}{X}}\right]\right)^{2}\right]=\operatorname {var} \left[{\frac {1-X}{X}}\right]\\&=\operatorname {E} \left[\left({\frac {1-X}{X}}-\operatorname {E} \left[{\frac {1-X}{X}}\right]\right)^{2}\right]={\frac {\beta (\alpha +\beta -1)}{\left(\alpha -2\right)\left(\alpha -1\right)^{2}}}{\text{ if }}\alpha >2\end{aligned}}$

変数Xの分散をその鏡像（X /（1− X））で割ると、「逆ベータ分布」またはベータプライム分布（第2種ベータ分布またはピアソンのタイプVIとも呼ばれる）の分散が得られる。^{[ 1 ]}

${\begin{aligned}\operatorname {var} \left[{\frac {1}{1-X}}\right]&=\operatorname {E} \left[\left({\frac {1}{1-X}}-\operatorname {E} \left[{\frac {1}{1-X}}\right]\right)^{2}\right]=\operatorname {var} \left[{\frac {X}{1-X}}\right]\\[1ex]&=\operatorname {E} \left[\left({\frac {X}{1-X}}-\operatorname {E} \left[{\frac {X}{1-X}}\right]\right)^{2}\right]={\frac {\alpha (\alpha +\beta -1)}{\left(\beta -2\right)\left(\beta -1\right)^{2}}}{\text{ if }}\beta >2\end{aligned}}$

共分散は次のとおりです。

${\begin{aligned}\operatorname {cov} \left[{\frac {1}{X}},{\frac {1}{1-X}}\right]&=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {X}{1-X}}\right]=\operatorname {cov} \left[{\frac {1}{X}},{\frac {X}{1-X}}\right]\\[1ex]&=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {1}{1-X}}\right]={\frac {\alpha +\beta -1}{(\alpha -1)(\beta -1)}}{\text{ if }}\alpha ,\beta >1\end{aligned}}$ これらの期待値と分散は、4パラメータのフィッシャー情報行列（§ フィッシャー情報量）に現れます

対数変換された確率変数のモーメント

logit( X ) = ln( X /(1 − X )) (縦軸) と0から1の領域におけるX (横軸) のプロット。ロジット変換は興味深いもので、通常、様々な形状（J字型を含む）をロジット変数上の（通常は歪んだ）ベル型密度に変換し、元の変数上の端の特異性を除去することができる。

この節では、対数変換の期待値（最尤推定に有用。§パラメータ推定、最尤推定を参照）について論じる。以下の対数線形変換は、幾何平均G _Xおよび G _{1− X}と関連している（ § 幾何平均を参照）。

${\begin{aligned}\operatorname {E} [\ln X]&=\psi (\alpha )-\psi (\alpha +\beta )=-\operatorname {E} \left[\ln {\frac {1}{X}}\right],\\\operatorname {E} [\ln(1-X)]&=\psi (\beta )-\psi (\alpha +\beta )=-\operatorname {E} \left[\ln {\frac {1}{1-X}}\right].\end{aligned}}$

ここで、ディガンマ関数ψ ( α ) はガンマ関数の対数導関数として定義されます。^[¹⁸^]

$\psi (\alpha )={\frac {d}{d\alpha }}\ln \Gamma (\alpha )$

ロジット変換は興味深いもので、^{[ 24 ]}様々な形状（J字型を含む）をロジット変数上の（通常は歪んだ）ベル型密度に変換し、元の変数上の端の特異点を除去することができる。

${\begin{aligned}\operatorname {E} \left[\ln {\frac {X}{1-X}}\right]&=\psi (\alpha )-\psi (\beta )=\operatorname {E} [\ln X]+\operatorname {E} \left[\ln {\frac {1}{1-X}}\right],\\\operatorname {E} \left[\ln {\frac {1-X}{X}}\right]&=\psi (\beta )-\psi (\alpha )=-\operatorname {E} \left[\ln {\frac {X}{1-X}}\right].\end{aligned}}$

ジョンソン^{[ 25 ]}は、ロジット変換された変数ln( X /1− X ) の分布を、そのモーメント生成関数と形状パラメータの大きな値に対する近似を含めて考察した。この変換は、元の変数Xに基づく有限台[0, 1]を、実数直線の両方向(−∞, +∞)における無限台へと拡張する。ベータ変量のロジットはロジスティックベータ分布に従う。

高次の対数モーメントは、ベータ分布を2つのガンマ分布の比として表現し、積分微分することで導出できます。高次のポリガンマ関数を用いて次のように表すことができます。

${\begin{aligned}\operatorname {E} \left[\ln ^{2}(X)\right]&=(\psi (\alpha )-\psi (\alpha +\beta ))^{2}+\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ),\\\operatorname {E} \left[\ln ^{2}(1-X)\right]&=(\psi (\beta )-\psi (\alpha +\beta ))^{2}+\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ),\\\operatorname {E} \left[\ln(X)\ln(1-X)\right]&=(\psi (\alpha )-\psi (\alpha +\beta ))(\psi (\beta )-\psi (\alpha +\beta ))-\psi _{1}(\alpha +\beta ).\end{aligned}}$

したがって、対数変数の分散とln( X )とln(1− X ) の共分散は次のようになります。

${\begin{aligned}\operatorname {cov} [\ln X,\ln(1-X)]&=\operatorname {E} \left[\ln X\ln(1-X)\right]-\operatorname {E} [\ln X]\operatorname {E} [\ln(1-X)]\\&=-\psi _{1}(\alpha +\beta )\\&\\\operatorname {var} [\ln X]&=\operatorname {E} [\ln ^{2}X]-(\operatorname {E} [\ln X])^{2}\\&=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )\\&=\psi _{1}(\alpha )+\operatorname {cov} [\ln X,\ln(1-X)]\\&\\\operatorname {var} [\ln(1-X)]&=\operatorname {E} [\ln ^{2}(1-X)]-(\operatorname {E} [\ln(1-X)])^{2}\\&=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )\\&=\psi _{1}(\beta )+\operatorname {cov} [\ln X,\ln(1-X)]\end{aligned}}$

ここで、三ガンマ関数（ψ ₁ ( α )と表記）は、ポリガンマ関数の2番目であり、二ガンマ関数の導関数として定義されます。

$\psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{d\alpha ^{2}}}={\frac {d\psi (\alpha )}{d\alpha }}.$

対数変換された変数Xと (1 − X )の分散と共分散は一般に異なります。これは、対数が負の無限大に近づくにつれて変数がゼロに近づくため、対数変換によって元の変数Xと (1 − X ) の鏡面対称性が破壊されるためです。

これらの対数分散と共分散は、ベータ分布のフィッシャー情報行列の要素です。また、対数尤度関数の曲率の尺度でもあります（最尤推定のセクションを参照）。

対数逆変数の分散は対数変数の分散と同一です。

${\begin{aligned}\operatorname {var} \left[\ln {\frac {1}{X}}\right]&=\operatorname {var} [\ln X]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ),\\\operatorname {var} \left[\ln {\frac {1}{1-X}}\right]&=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ),\\\operatorname {cov} \left[\ln {\frac {1}{X}},\,\ln {\frac {1}{1-X}}\right]&=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta ).\end{aligned}}$

また、ロジット変換された変数の分散は

${\begin{aligned}\operatorname {var} \left[\ln {\frac {X}{1-X}}\right]&=\operatorname {var} \left[\ln {\frac {1-X}{X}}\right]\\&=-\operatorname {cov} \left[\ln {\frac {X}{1-X}},\,\ln {\frac {1-X}{X}}\right]\\[1ex]&=\psi _{1}(\alpha )+\psi _{1}(\beta ).\end{aligned}}$

情報量（エントロピー）

ベータ分布に従う確率変数X ~ Beta( α , β )が与えられたとき、Xの微分エントロピーは（ natsで測定）^[²⁶^]確率密度関数の対数の負の期待値である。

${\begin{aligned}h(X)&=\operatorname {E} \left[-\ln f(X;\alpha ,\beta )\right]\\[4pt]&=\int _{0}^{1}-f(x;\alpha ,\beta )\ln f(x;\alpha ,\beta )\,dx\\[4pt]&=\ln \mathrm {B} (\alpha ,\beta )-(\alpha -1)\psi (\alpha )-(\beta -1)\psi (\beta )+(\alpha +\beta -2)\psi (\alpha +\beta )\end{aligned}}$

ここで、f ( x ; α , β )はベータ分布の確率密度関数である。

$f(x;\alpha ,\beta )={\frac {x^{\alpha -1}\left(1-x\right)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}$

二ガンマ関数ψ は、オイラーの調和数の積分公式の結果として微分エントロピーの式に現れ、この積分から次の式が得られます。

$\int _{0}^{1}{\frac {1-x^{\alpha -1}}{1-x}}\,dx=\psi (\alpha )-\psi (1)$

ベータ分布の微分エントロピーは、αとβが0より大きいすべての値に対して負になります。ただし、 α = β = 1 （この値ではベータ分布は一様分布と同じ）の場合には、微分エントロピーは最大値の0に達します。すべての事象が等確率であるときに不確実性が最大になるため、ベータ分布が一様分布と等しくなるときにエントロピーが最大になると予想されます。

αまたはβが0 に近づくと、微分エントロピーは最小値の負の無限大に近づきます。αまたはβ （いずれかまたは両方）が 0 に近づくと、秩序が最大になります。つまり、すべての確率密度が端に集中し、端の間に位置するポイントでは確率密度が 0 になります。同様に、αまたはβ （いずれかまたは両方）が無限大に近づくと、微分エントロピーは最小値の負の無限大に近づき、秩序が最大になります。αまたはβのいずれかが無限大に近づき（もう一方は有限）、すべての確率密度が端に集中し、その他の場所では確率密度が 0 になります。両方の形状パラメータが等しく（対称的なケース）、α = βであり、それらが同時に無限大に近づくと、確率密度は中央のx = 1/2 に集中したスパイク（ディラックのデルタ関数）になり、したがって中央のx = 1/2 で確率が 100% になり、その他の場所では確率が 0 になります。

（連続分布の場合の）微分エントロピーは、シャノンが最初の論文（そこでは「連続分布のエントロピー」と名付けた）の結論部分で導入されました。この論文では、彼は離散エントロピーを定義しました。^{[ 27 ]} それ以来、微分エントロピーは離散エントロピーの無限小極限から無限大のオフセットだけ異なる可能性があることが知られており、したがって微分エントロピーは負の値になることがあります（ベータ分布の場合のように）。本当に重要なのは、エントロピーの相対的な値です。

2つのベータ分布に従う確率変数X ₁ ~ Beta( α , β )とX ₂ ~ Beta( α ′ , β ′ )が与えられたとき、クロスエントロピーは（ナット単位で測定）^{[ 28 ]}

${\begin{aligned}H(X_{1},X_{2})&=\int _{0}^{1}-f(x;\alpha ,\beta )\ln f(x;\alpha ',\beta ')\,dx\\[4pt]&=\ln \mathrm {B} (\alpha ',\beta ')-(\alpha '-1)\psi (\alpha )-(\beta '-1)\psi (\beta )+\left(\alpha '+\beta '-2\right)\psi (\alpha +\beta ).\end{aligned}}$

クロスエントロピーは、2つの仮説間の距離を測定する誤差指標として用いられてきた。^{[ 29 ]}^{[ 30 ]} クロスエントロピーの絶対値は、2つの分布が同一の場合に最小となる。これは、対数最大尤度^{[ 28 ]}に最も関連性の高い情報指標である（「パラメータ推定：最大尤度推定」のセクションを参照）。

相対エントロピー、あるいはカルバック・ライブラー情報量D _KL ( X ₁ || X ₂ ) は、分布が実際には X 1 ~ Beta( α , β ) であるにもかかわらず、分布が X 2 ~ Beta( α ′ , β ′ )で_あると仮定することの非_効率性を示す尺度です。これは以下のように定義されます（単位は nats）。

${\begin{aligned}D_{\mathrm {KL} }(X_{1}\parallel X_{2})&=\int _{0}^{1}f(x;\alpha ,\beta )\,\ln {\frac {f(x;\alpha ,\beta )}{f(x;\alpha ',\beta ')}}\,dx\\[4pt]&=\left(\int _{0}^{1}f(x;\alpha ,\beta )\ln f(x;\alpha ,\beta )\,dx\right)-\left(\int _{0}^{1}f(x;\alpha ,\beta )\ln f(x;\alpha ',\beta ')\,dx\right)\\[4pt]&=-h(X_{1})+H(X_{1},X_{2})\\[4pt]&=\ln {\frac {\mathrm {B} (\alpha ',\beta ')}{\mathrm {B} (\alpha ,\beta )}}+\left(\alpha -\alpha '\right)\psi (\alpha )+\left(\beta -\beta '\right)\psi (\beta )+\left(\alpha '-\alpha +\beta '-\beta \right)\psi (\alpha +\beta ).\end{aligned}}$

相対エントロピー、すなわちカルバック・ライブラー情報は常に非負です。以下に数値例をいくつか示します。

X ₁ ~ Beta(1, 1) およびX ₂ ~ Beta(3, 3); D _KL ( X ₁ || X ₂ ) = 0.598803; D _KL ( X ₂ || X ₁ ) = 0.267864; h ( X ₁ ) = 0; h ( X ₂ ) = −0.267864
X ₁ ~ Beta(3, 0.5) およびX ₂ ~ Beta(0.5, 3); D _KL ( X ₁ || X ₂ ) = 7.21574; D _KL ( X ₂ || X ₁ ) = 7.21574; h ( X ₁ ) = −1.10805; h ( X ₂ ) = −1.10805。

カルバック・ライブラー情報_{とは、個々のベータ分布Beta(1, 1)とBeta(3, 3)が対称だがエントロピーh(X 1)≠h(X 2)が異なる場合、D KL}( X 1 || X 2 )≠D KL (X 2 || X 1 )で対称ではない情報です。カルバック情報の大きさは、高い（微分）エントロピーから低い（微分）エントロピーへ向かうか、それとも_その逆かによって_変わります。上記の_数値例で_は、カルバック情報と_は、分布が（_一様_） Beta(1, 1)ではなく（ベル型の）Beta(3, 3)であると仮定することの非効率性の大きさを表しています。 Beta(1, 1)の「h」エントロピーはBeta(3, 3)の「h」エントロピーよりも高い。これは、一様分布Beta(1, 1)が最大の無秩序性を持つためである。カルバック・ダイバージェンスは、エントロピーが減少する方向、つまり（一様）Beta(1, 1)分布が（ベル型）Beta(3, 3)分布であると仮定する方向（逆の場合ではない）で測定した場合、2倍以上（0.267864ではなく0.598803）となる。この限定された意味では、カルバック・ダイバージェンスは熱力学第二法則と整合する。

カルバック・ライブラー情報量は、_{等しい微分エントロピー}_h(X1)=h( X2 )を持つ歪ん_{だケースBeta(}_3,0.5 )とBeta(0.5,3)に対して対称D _KL ( _X1 || X2 ) = D KL ( _X2 || X1 )です_。

対称条件：

$D_{\mathrm {KL} }(X_{1}\parallel X_{2})=D_{\mathrm {KL} }(X_{2}\parallel X_{1}),{\text{ if }}h(X_{1})=h(X_{2}),{\text{ for (skewed) }}\alpha \neq \beta$

上記の定義と、ベータ分布が持つ鏡面対称性f ( x ; α , β ) = f (1 − x ; α , β ) から導かれます

統計的指標間の関係

平均値、最頻値、中央値の関係

1 < α < βの場合、最頻値 ≤ 中央値 ≤ 平均値となる。^{[ 10 ]}最頻値（α、β > 1の場合のみ）と平均値をαとβで表すと次のようになる。

${\frac {\alpha -1}{\alpha +\beta -2}}\leq {\text{median}}\leq {\frac {\alpha }{\alpha +\beta }},$

1 < β < αの場合、不等式の順序は逆になります。α 、β > 1 の場合、平均値と中央値の絶対距離は、xの最大値と最小値の距離の 5% 未満です。一方、α = 1 およびβ = 1 という（病的な）ケースでは、平均値と最頻値の絶対距離はxの最大値と最小値の距離の 50% に達する可能性があり、この値ではベータ分布は一様分布に近づき、微分エントロピーは最大値に近づき、したがって「無秩序」は最大になります。

たとえば、α = 1.0001、β = 1.00000001の場合:

モード = 0.9999; PDF(モード) = 1.00010
平均 = 0.500025; PDF(平均) = 1.00003
中央値 = 0.500035; PDF(中央値) = 1.00003
平均 − 最頻値 = −0.499875
平均値 − 中央値 = −9.65538 × 10 ⁻⁶

ここで、PDF は確率密度関数の値を表します。

平均、幾何平均、調和平均の関係

算術平均と幾何平均の不等式から、幾何平均は平均値よりも低いことがわかります。同様に、調和平均は幾何平均よりも低くなります。添付のグラフは、 α = βの場合、α = β の値に関わらず、平均値と中央値はどちらも1/2に等しく、最頻値もα = β > 1 の場合に1/2に等しいことを示しています。しかし、幾何平均と調和平均は1/2よりも低く、α = β → ∞の方向に漸近的にのみこの値に近づきます。

歪度の2乗で囲まれた尖度

フェラー^{[ 5 ]}が指摘したように、ピアソンシステムではベータ確率密度はタイプ Iとして表示されます(ベータ分布とピアソンのタイプ I 分布の違いは表面的なものに過ぎず、尖度と歪度の関係に関する以下の議論には影響しません)。カール・ピアソンは、1916 年に発表された論文^{[ 21 ]}の図 1 で、縦軸 (縦座標)に尖度、横軸 (横座標) に歪度の 2 乗をとったグラフを示し、その中でいくつかの分布が表示されました。^[³¹^]ベータ分布が占める領域は、 (歪度²、尖度)平面、または (歪度²、過剰尖度)平面で次の 2 つの線によって囲まれます。

$({\text{skewness}})^{2}+1<{\text{kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}+3$

あるいは、同等に、

$({\text{skewness}})^{2}-2<{\text{excess kurtosis}}<{\frac {3}{2}}({\text{skewness}})^{2}$

強力なデジタルコンピュータが存在しなかった時代に、カール・ピアソンは更なる境界を正確に計算し、^{[ 32 ]}^{[ 21 ]}、例えば「U字型」分布と「J字型」分布を分離しました。下限境界線（過剰尖度 + 2 − 歪度^{2 = 0）は、形状パラメータ}αとβの両方の値がゼロに近い、歪んだ「U字型」ベータ分布によって生成されます。上限境界線（過剰尖度 − (3/2) 歪度² = 0）は、パラメータの1つが非常に大きく、もう1つのパラメータが非常に小さい、極端に歪んだ分布によって生成されます。カール・ピアソンは^{[ 21 ]、}この上限のライン（過剰尖度 − （3/2）歪度² = 0）はピアソン分布 III との交点でもあることを示し、ピアソン分布 III は一方向（正の無限大に向かって）に無制限のサポートを持ち、ベル型または J 型になる可能性があると示しました。彼の息子であるエゴン・ピアソンは^{[ 31 ]}^{、ベータ分布（ピアソン分布 I と同等）がこの境界（過剰尖度 − （3/2）歪度2} = 0）に近づくにつれて、（尖度/歪度 2 乗平面内で）が占める領域は、非心カイ 2 乗分布と共有されることを示しました。カール・ピアソン^{[ 33 ]}（Pearson 1895、pp. 357、360、373–376）は、ガンマ分布がピアソン III 型分布であることも示しました。したがって、ピアソンのタイプIII分布のこの境界線はガンマ線として知られています。（これは、ガンマ分布の過剰尖度が6/ kであり、歪度の2乗が4/ kであるという事実から示されます。したがって、ガンマ分布はパラメータ「k」の値に関わらず、（過剰尖度−（3/2）歪度² = 0）が常に満たされます）。ピアソンは後に、カイ2乗分布はピアソンのタイプIIIの特別なケースであり、この境界線を共有すると指摘しました（カイ2乗分布の過剰尖度が12/ kであり、歪度の2乗が8/ kであるという事実から明らかです。したがって、（過剰尖度−（3/2）歪度² = 0）がパラメータ「k」の値に関わらず常に満たされます）。これは、カイ2乗分布X ~ χ ² ( k) はガンマ分布の特殊なケースであり、パラメータ化 X ~ Γ(k/2, 1/2) を持ちます。ここで、k はカイ 2 乗分布の「自由度の数」を指定する正の整数です。

上限付近のベータ分布の例（過剰尖度 − (3/2) 歪度² = 0）は、α = 0.1、β = 1000 で与えられ、この場合、比 (過剰尖度)/(歪度² ) = 1.49835 は、下から上限の 1.5 に近づきます。下限付近のベータ分布の例（過剰尖度 + 2 − 歪度² = 0）は、α = 0.0001、β = 0.1 で与えられ、この場合、式 (過剰尖度 + 2)/(歪度^{2 ) = 1.01621 は、上から下限の 1 に近づきます。α}とβの両方が対称的に 0 に近づく極小限界では、過剰尖度は -2 で最小値に達します。この最小値は、下側の境界線が垂直軸（縦軸）と交差する点で発生します。（ただし、ピアソンの元のチャートでは、縦軸は過剰尖度ではなく尖度であり、上方向ではなく下方向に向かって増加します）。

歪度と過剰尖度の値が下限値（過剰尖度 + 2 − 歪度² = 0）を下回る分布は発生しないため、カール・ピアソンはこの境界より下の領域を「不可能領域」と適切に呼びました。この「不可能領域」の境界は、パラメータαとβ がゼロに近づく（対称または歪んだ）双峰性 U 字型分布によって決定され、したがってすべての確率密度が両端x = 0、1 に集中し、その間にはほとんど何も存在しません。α ≈ β ≈ 0 の場合、確率密度は両端 x = 0 と x = 1 に集中するため、この「不可能境界」はベルヌーイ分布によって決定され、この分布では、2 つの唯一の可能な結果が、それぞれ確率pとq = 1 − pで発生します。この限界境界に対称性α = βで近づく場合、歪度 ≈ 0、過剰尖度 ≈ −2（これはあらゆる分布で起こり得る最小の過剰尖度）、確率はp ≈ q ≈ 1/2 となる。この限界境界に歪度で近づく場合、過剰尖度 ≈ −2 + 歪度²となり、確率密度は一方の端に他方の端よりも集中し（中間の領域はほとんどない）、左端の確率はx = 0、右端の確率はx = 1 となる。 $p={\tfrac {\beta }{\alpha +\beta }}$ $q=1-p={\tfrac {\alpha }{\alpha +\beta }}$

対称性

すべての記述はα、β >0 を条件としています

確率密度関数の反射対称性 $f(x;\alpha ,\beta )=f(1-x;\beta ,\alpha )$
累積分布関数の反射対称性とユニタリー並進 $F(x;\alpha ,\beta )=I_{x}(\alpha ,\beta )=1-F(1-x;\beta ,\alpha )=1-I_{1-x}(\beta ,\alpha )$
モード反射対称性とユニタリー並進 $\operatorname {mode} (\mathrm {B} (\alpha ,\beta ))=1-\operatorname {mode} (\mathrm {B} (\beta ,\alpha )),{\text{ if }}\mathrm {B} (\beta ,\alpha )\neq \mathrm {B} (1,1)$
中線反射対称性とユニタリー並進 $\operatorname {median} (\mathrm {B} (\alpha ,\beta ))=1-\operatorname {median} (\mathrm {B} (\beta ,\alpha ))$
平均反射対称性とユニタリー並進 $\mu (\mathrm {B} (\alpha ,\beta ))=1-\mu (\mathrm {B} (\beta ,\alpha ))$
幾何平均はそれぞれ個別には非対称であるが、 Xに基づく幾何平均とその反射1− Xに基づく幾何平均の間には次の対称性が適用される。 $G_{X}(\mathrm {B} (\alpha ,\beta ))=G_{1-X}(\mathrm {B} (\beta ,\alpha ))$
調和平均はそれぞれ個別には非対称であるが、 Xに基づく調和平均とその反射1− Xに基づく調和平均の間には次の対称性が適用される。 $H_{X}(\mathrm {B} (\alpha ,\beta ))=H_{1-X}(\mathrm {B} (\beta ,\alpha )){\text{ if }}\alpha ,\beta >1.$
分散対称性 $\operatorname {var} (\mathrm {B} (\alpha ,\beta ))=\operatorname {var} (\mathrm {B} (\beta ,\alpha ))$
幾何分散はそれぞれ個別には非対称であるが、Xに基づく対数幾何分散とその反射1− Xに基づく対数幾何分散の間には次の対称性が当てはまる。 $\ln(\operatorname {var} _{GX}(\mathrm {B} (\alpha ,\beta )))=\ln(\operatorname {var} _{G(1-X)}(\mathrm {B} (\beta ,\alpha )))$
幾何学的共分散対称性 $\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\alpha ,\beta ))=\ln \operatorname {cov} _{GX,(1-X)}(\mathrm {B} (\beta ,\alpha ))$
平均対称性の周りの平均絶対偏差 $\operatorname {E} [|X-E[X]|](\mathrm {B} (\alpha ,\beta ))=\operatorname {E} [|X-E[X]|](\mathrm {B} (\beta ,\alpha ))$
歪度歪対称性 $\operatorname {skewness} (\mathrm {B} (\alpha ,\beta ))=-\operatorname {skewness} (\mathrm {B} (\beta ,\alpha ))$
過剰尖度対称性 ${\text{excess kurtosis}}(\mathrm {B} (\alpha ,\beta ))={\text{excess kurtosis}}(\mathrm {B} (\beta ,\alpha ))$
実部の特性関数の対称性（変数「 t 」の原点に関して） ${\text{Re}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]={\text{Re}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]$
虚数部の特性関数の歪対称性（変数「 t 」の原点に関して） ${\text{Im}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]=-{\text{Im}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]$
絶対値の特性関数の対称性（変数「 t 」の原点に関して） ${\text{Abs}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;it)]={\text{Abs}}[{}_{1}F_{1}(\alpha ;\alpha +\beta ;-it)]$
微分エントロピー対称性 $h(\mathrm {B} (\alpha ,\beta ))=h(\mathrm {B} (\beta ,\alpha ))$
相対エントロピー（カルバック・ライブラー情報とも呼ばれる）対称性 $D_{\mathrm {KL} }(X_{1}\parallel X_{2})=D_{\mathrm {KL} }(X_{2}\parallel X_{1}),{\text{ if }}h(X_{1})=h(X_{2}){\text{, for (skewed) }}\alpha \neq \beta$
フィッシャー情報行列対称性 ${\mathcal {I}}_{i,j}={\mathcal {I}}_{j,i}$

確率密度関数の幾何学

変曲点

形状パラメータαとβの特定の値に対して、確率密度関数は変曲点を持ち、そこで曲率が符号を変える。これらの変曲点の位置は、分布の分散または広がりの尺度として有用である。

次の量を定義します。

$\kappa ={\frac {\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}{\alpha +\beta -2}}$

変曲点は、形状パラメータαとβの値に応じて次のように発生します^{[ 1 ]}^{[ 8 ]}^{[ 9 ]}^{[ 20 ] 。}

（α＞2、β＞2）分布はベル型（α＝βの場合は対称、それ以外は歪んでいる）で、モードから等距離に2つの変曲点がある。

$x={\text{mode}}\pm \kappa ={\frac {\alpha -1\pm {\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}$

（α = 2、β > 2）分布は単峰性で、正に歪んでおり、右側に裾があり、1つの変曲点が最頻値の右側に位置します。

$x={\text{mode}}+\kappa ={\frac {2}{\beta }}$

（α＞2、β＝2）分布は単峰性で、負に歪んでおり、左側に分布し、最頻値の左側に1つの変曲点があります。

$x={\text{mode}}-\kappa =1-{\frac {2}{\alpha }}$

(1 < α < 2, β > 2, α + β > 2) この分布は単峰性で、正に歪んでおり、右側に分布し、1つの変曲点が最頻値の右側に位置します。

$x={\text{mode}}+\kappa ={\frac {\alpha -1+{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}$

(0 < α < 1, 1 < β < 2) この分布は左端x = 0 に最頻値を持ち、正の右裾分布となる。最頻値の右側に変曲点が1つ存在する。

$x={\frac {\alpha -1+{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}$

（α＞２、１＜β＜２）分布は、負に歪んだ単峰性の左側分布であり、最頻値の左側に１つの変曲点がある。

$x={\text{mode}}-\kappa ={\frac {\alpha -1-{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}$

(1 < α < 2, 0 < β < 1) この分布は右端x = 1 に最頻値を持ち、負の左裾分布となる。最頻値の左側に変曲点が1つ存在する。

$x={\frac {\alpha -1-{\sqrt {\frac {(\alpha -1)(\beta -1)}{\alpha +\beta -3}}}}{\alpha +\beta -2}}$

残りの（対称および歪んだ）領域には変曲点はありません：U字型：（α、β <1）、逆U字型：（1< α <2、1< β <2）、逆J字型（α <1、β >2）、またはJ字型：（α >2、β <1）

添付のグラフは、変曲点の位置（縦軸は0から1まで）とαおよびβ（横軸は0から5まで）の関係を示しています。α = 1、β = 1、α = 2、β = 2の線と交差する面には大きな切れ目が見られます。これは、これらの値においてベータ分布が2モードから1モード、そして無モードへと変化するためです。

図形

ベータ密度関数は、2つのパラメータαとβの値に応じて、多種多様な形状をとることができます。ベータ分布が（わずか2つのパラメータを用いて）このように多様な形状をとることができるという特性は、実測値のモデル化に広く応用されている理由の一つです。

対称（α = β）

密度関数は1/2 を中心に対称です(青と青緑のプロット)。
中央値 = 平均 = 1/2。
歪度 = 0。
分散 = 1/(4(2 α + 1))
α = β < 1
- U字型（青いプロット）
- 双峰性：左モード = 0、右モード = 1、反モード = 1/2
- 1/12 < var( X ) < 1/4 ^{[ 1 ]}
- −2 < 過剰尖度( X ) < −6/5
- α = β = 1/2は逆正弦分布である
  - var( X ) = 1/8
  - 過剰尖度( X ) = −3/2
  - CF = リンク (t) ^{[ 34 ]}
- α = β → 0 は、ディラックのデルタ関数の両端x = 0 とx = 1で確率 1/2 が等しく、それ以外の場合は確率がゼロとなる2 点ベルヌーイ分布です。コインを投げる場合、片方の面はx = 0、もう片方の面はx = 1 となります。
  - $\lim _{\alpha =\beta \to 0}\operatorname {var} (X)={\tfrac {1}{4}}$
  - $\lim _{\alpha =\beta \to 0}\operatorname {excess\ kurtosis} (X)=-2$ これより低い値に到達することは、どの分布でも不可能です。
  - 微分エントロピーは最小値−∞に近づく
α = β = 1
- 一様[0, 1]分布
- 最頻値なし
- 変数( X ) = 1/12
- 過剰尖度( X ) = −6/5
- （他の場所では負の）微分エントロピーは最大値のゼロに達する
- CF = シンク (t)
α = β > 1
- 対称単峰性
- モード = 1/2
- 0 < var( X ) < 1/12 ^{[ 1 ]}
- −6/5 < 過剰尖度( X ) < 0
- α = β = 3/2は半楕円分布[0, 1]である。ウィグナー半円分布^{[ 35 ]を参照。}
  - var( X ) = 1/16です。
  - 過剰尖度( X ) = −1
  - CF = 2 ジンク (t)
- α = β = 2は放物線[0, 1]分布である。
  - var( X ) = 1/20
  - 過剰尖度( X ) = −6/7
  - CF = 3 Tinc (t) ^{[ 36 ]}
- α = β > 2 はベル型で、変曲点はモードの両側に位置する。
  - 0 < 変数( X ) < 1/20
  - −6/7 < 過剰尖度( X ) < 0
- α = β → ∞ は、ディラックのデルタ関数のスパイクが中点x = 1/2 で確率 1 で出現し、それ以外の場所では確率 0 となる1 点退化分布です。x = 1/2という一点に 100% の確率（絶対確実性）が集中しています。
  - $\lim _{\alpha =\beta \to \infty }\operatorname {var} (X)=0$
  - $\lim _{\alpha =\beta \to \infty }\operatorname {excess\ kurtosis} (X)=0$
  - 微分エントロピーは最小値−∞に近づく

歪んでいる（α ≠ β）

密度関数は歪んでいます。パラメータ値を交換すると、初期曲線の鏡像（反転）が得られます。より具体的な例をいくつか挙げます。

α < 1、β < 1
- U字型
- α < βの場合は正の歪み、 α > βの場合は負の歪み
- 二峰性：左モード = 0、右モード = 1、反モード = ${\tfrac {\alpha -1}{\alpha +\beta -2}}$
- 0 < 中央値 < 1。
- 0 < 変数( X ) < 1/4
α > 1、β > 1
- 単峰性（マゼンタとシアンのプロット）、
- α < βの場合は正の歪み、 α > βの場合は負の歪み
- ${\text{mode}}={\tfrac {\alpha -1}{\alpha +\beta -2}}$
- 0 < 中央値 < 1
- 0 < 変数( X ) < 1/12
α < 1、β ≥ 1
- 逆J字型で右尾部を持つ。
- 正に歪んだ
- 厳密に減少する凸型
- 最頻値 = 0
- 0 < 中央値 < 1/2。
- $0<\operatorname {var} (X)<{\tfrac {-11+5{\sqrt {5}}}{2}},$ （最大分散は、またはα = Φ の黄金比共役で発生します） $\alpha ={\tfrac {-1+{\sqrt {5}}}{2}},\beta =1$
α ≥ 1、β < 1
- 左尻尾のJ字型、
- 負に歪んだ
- 厳密に増加、凸
- 最頻値 = 1
- 1/2 < 中央値 < 1
- $0<\operatorname {var} (X)<{\tfrac {-11+5{\sqrt {5}}}{2}},$ （最大分散は、またはβ = Φ の黄金比共役で発生します） $\alpha =1,\beta ={\tfrac {-1+{\sqrt {5}}}{2}}$
α = 1, β > 1
- 正に歪んだ
- 厳密に減少する（赤いプロット）、
- 反転した（鏡像の）べき乗関数分布
- 平均 = 1 / ( β + 1 )
- 中央値 = 1 - 1/2 ^{1/ β}
- 最頻値 = 0
- α = 1, 1 < β < 2
  - 凹面
  - $1-{\tfrac {1}{\sqrt {2}}}<{\text{median}}<{\tfrac {1}{2}}$
  - 1/18 < var( X ) < 1/12
- α = 1、β = 2
  - 傾きが-2の直線、左端が直角の直角三角分布（ x = 0）
  - ${\text{median}}=1-{\tfrac {1}{\sqrt {2}}}$
  - var( X ) = 1/18
- α = 1, β > 2
  - 逆J字型で右尾部を持つ。
  - 凸
  - $0<{\text{median}}<1-{\tfrac {1}{\sqrt {2}}}$
  - 0 < var( X ) < 1/18
α > 1, β = 1
- 負に歪んだ
- 厳密に増加（緑のプロット）、
- べき乗関数分布^{[ 9 ]}
- 平均 = α / (α + 1)
- 中央値 = 1/2 ^1/α
- 最頻値 = 1
- 2 > α > 1、β = 1
  - 凹面
  - ${\tfrac {1}{2}}<{\text{median}}<{\tfrac {1}{\sqrt {2}}}$
  - 1/18 < 変数( X ) < 1/12
- α = 2、β = 1
  - 傾き+2の直線、右端が直角の直角三角分布（ x = 1）
  - ${\text{median}}={\tfrac {1}{\sqrt {2}}}$
  - var( X ) = 1/18
- α > 2、β = 1
  - J字型で、左端が凸型
  - ${\tfrac {1}{\sqrt {2}}}<{\text{median}}<1$
  - 0 < var( X ) < 1/18

統計的推論

パラメータ推定

モーメント法

2つの未知パラメータ

2つの未知のパラメータ（ [0,1]区間でサポートされるベータ分布の）は、モーメント法を用いて推定できます。最初の2つのモーメント（標本平均と標本分散）は次のように表されます。 $({\hat {\alpha }},{\hat {\beta }})$

${\text{sample mean(X)}}={\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}X_{i}$

標本平均推定値であり、

${\text{sample variance(X)}}={\bar {v}}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(X_{i}-{\bar {x}}\right)^{2}$

標本分散推定値とする。モーメント法によるパラメータ推定値は

${\hat {\alpha }}={\bar {x}}\left({\frac {{\bar {x}}(1-{\bar {x}})}{\bar {v}}}-1\right)\ {\text{if}}\ {\bar {v}}<{\bar {x}}(1-{\bar {x}}),$ ${\hat {\beta }}=(1-{\bar {x}})\left({\frac {{\bar {x}}(1-{\bar {x}})}{\bar {v}}}-1\right)\ {\text{if}}\ {\bar {v}}<{\bar {x}}(1-{\bar {x}}).$

分布がランダム変数Xで[0, 1]以外の既知の区間、例えばランダム変数Yで[ a , c ]で必要な場合は、上記の形状パラメータの2つの式でをとを置き換えます（以下の「4つの未知のパラメータ」のセクションを参照）。^[⁴¹^]ここで、 ${\bar {x}}$ ${\frac {{\bar {y}}-a}{c-a}},$ ${\bar {v}}$ ${\frac {\bar {v_{Y}}}{(c-a)^{2}}}$

${\text{sample mean(Y)}}={\bar {y}}={\frac {1}{N}}\sum _{i=1}^{N}Y_{i}$ ${\text{sample variance(Y)}}={\bar {v}}_{Y}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(Y_{i}-{\bar {y}}\right)^{2}$

4つの未知のパラメータ

カール・ピアソンが開発したモーメント法を用いて、最初の4つの中心モーメント（平均、分散、歪度、過剰尖度）の標本値と母集団値を等しくすることで、（[ a、c ]区間でサポートされるベータ分布の4つのパラメータについては、「代替パラメータ化、4つのパラメータ」のセクションを参照）4つのパラメータすべてを推定することができる。^[¹^]^[⁴²^]^[⁴³^]過剰尖度は、歪度の2乗と標本サイズν = α + β（前のセクション「尖度」を参照）で次のように表される。 ${\hat {\alpha }},{\hat {\beta }},{\hat {a}},{\hat {c}}$

${\text{excess kurtosis}}={\frac {6}{3+\nu }}\left({\frac {(2+\nu )}{4}}({\text{skewness}})^{2}-1\right){\text{ if (skewness)}}^{2}-2<{\text{excess kurtosis}}<{\tfrac {3}{2}}({\text{skewness}})^{2}$

この式を使って、歪度の2乗と過剰尖度を用いて標本サイズν=α+βを次のように解くことができる。^{[ 42 ]}

${\hat {\nu }}={\hat {\alpha }}+{\hat {\beta }}=3{\frac {({\text{sample excess kurtosis}})-({\text{sample skewness}})^{2}+2}{{\frac {3}{2}}({\text{sample skewness}})^{2}-{\text{(sample excess kurtosis)}}}}$ ${\text{ if (sample skewness)}}^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}$

これは、ある軸の歪度の2乗の座標と他の軸の過剰尖度の座標で定義された空間（カール・ピアソン^{[ 21 ]}によって最初に行われた）におけるベータ分布の以前に導出された極限境界間の比（係数3を乗じた値）である（§歪度の2乗で制限された尖度を参照）。

歪度がゼロの場合は、α = βであり、したがってν = 2 α = 2 βであり、したがってα = β = ν /2 であるため、すぐに解くことができます。

${\hat {\alpha }}={\hat {\beta }}={\frac {\hat {\nu }}{2}}={\frac {{\frac {3}{2}}({\text{sample excess kurtosis}})+3}{-{\text{(sample excess kurtosis)}}}}$ ${\text{ if sample skewness}}=0{\text{ and }}-2<{\text{sample excess kurtosis}}<0$

(過剰尖度は、歪度がゼロのベータ分布では負の値となり、範囲は -2 から 0 です。したがって、サンプルの形状パラメータは正の値となり、形状パラメータがゼロに近づき過剰尖度が -2 に近づく場合はゼロになり、形状パラメータが無限大に近づき過剰尖度がゼロに近づく場合は無限大になります)。 ${\hat {\nu }}$

標本歪度がゼロでない場合、2つの連立方程式を解く必要があります。歪度と過剰尖度はパラメータに依存しないため、2つの既知変数（標本歪度と標本過剰尖度）と2つの未知数（形状パラメータ）を含む連立方程式を解くことで、標本歪度と標本過剰尖度からパラメータを一意に決定できます。 ${\hat {a}},{\hat {c}}$ ${\hat {\alpha }},{\hat {\beta }}$

$({\text{sample skewness}})^{2}={\frac {4\left({\hat {\beta }}-{\hat {\alpha }}\right)^{2}\left(1+{\hat {\alpha }}+{\hat {\beta }}\right)}{{\hat {\alpha }}{\hat {\beta }}\left(2+{\hat {\alpha }}+{\hat {\beta }}\right)^{2}}}$ ${\text{sample excess kurtosis}}={\frac {6}{3+{\hat {\alpha }}+{\hat {\beta }}}}\left({\frac {(2+{\hat {\alpha }}+{\hat {\beta }})}{4}}({\text{sample skewness}})^{2}-1\right)$ ${\text{ if (sample skewness)}}^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}$

その結果、次のような解決策が得られた。^{[ 42 ]}

${\hat {\alpha }},{\hat {\beta }}={\frac {\hat {\nu }}{2}}\left(1\pm {\frac {1}{\sqrt {1+{\frac {16({\hat {\nu }}+1)}{({\hat {\nu }}+2)^{2}({\text{sample skewness}})^{2}}}}}}\right)$

${\text{ if sample skewness}}\neq 0{\text{ and }}({\text{sample skewness}})^{2}-2<{\text{sample excess kurtosis}}<{\tfrac {3}{2}}({\text{sample skewness}})^{2}$

ここで、解は次のように取られます: (負の) サンプル歪度 < 0 の場合、および(正の) サンプル歪度 > 0 の場合。 ${\hat {\alpha }}>{\hat {\beta }}$ ${\hat {\alpha }}<{\hat {\beta }}$

添付のグラフは、これら2つの解を、水平軸に（標本過剰尖度）と（標本歪度の二乗）をとり、垂直軸に形状パラメータをとった空間における面として示しています。これらの面は、上記の式で規定されているように、標本過剰尖度が標本歪度の二乗で制限されるという条件によって制約されています。2つの面は、歪度ゼロで定義される右端で交わります。この右端では、両方のパラメータが等しく、分布はα = β < 1の場合は対称U字型、α = β = 1の場合は一様、1 < α = β < 2の場合は逆U字型、α = β > 2の場合は釣鐘型となります。また、これらの面は、「不可能境界」線（過剰尖度 + 2 - 歪度² = 0）で定義される前端（下端）でも交わります。この前方（下側）境界に沿って、両方の形状パラメータはゼロに近づき、確率密度は一方の端に他方の端よりも集中し（中間の領域は実質的に存在しない）、左端の確率はx = 0、右端の確率はx = 1となる。2つの面は後方端に向かってさらに離れる。この後方端では、面パラメータは互いに大きく異なる。例えば、BowmanとShentonが指摘しているように^[⁴⁴^] 、直線（標本過剰尖度 - (3/2)(標本歪度) ² = 0）（青とベージュが交わる後方端のJ字型部分）の近傍でのサンプリングは「危険なほどカオスに近い」。なぜなら、その直線では、推定値ν = α + βの上の式の分母がゼロとなり、したがって、その直線に近づくにつれてνは無限大に近づくからである。 BowmanとShenton ^[⁴⁴^]は、「高次のモーメントパラメータ（尖度と歪度）は（その線付近では）極めて不安定である。しかし、平均値と標準偏差はかなり信頼できる」と述べている。したがって、問題は、過剰尖度が歪度の2乗の(3/2)倍に近づくような、非常に歪んだ分布に対する4パラメータ推定の場合である。この境界線は、パラメータの1つが非常に大きく、もう1つのパラメータが非常に小さい、極端に歪んだ分布によって生成される。数値例とこの後方境界線（標本過剰尖度 - (3/2)(標本歪度) ^{2 = 0）に関する詳細なコメントについては}、「歪度の2乗で制限される尖度」を参照のこと。Karl Pearson自身も^[⁴⁵^{]で述べているように、} $p={\tfrac {\beta }{\alpha +\beta }}$ $q=1-p={\tfrac {\alpha }{\alpha +\beta }}$ この問題は、実際にはあまり発生しない、形状パラメータの値が大きく異なる非常に歪んだJ字型（または鏡像J字型）の分布でのみ発生するため、実用上はそれほど重要ではないかもしれません。実際に発生する通常の歪んだベル型分布では、このパラメータ推定の問題は発生しません。

残りの2つのパラメータは、標本平均と標本分散を用いて様々な方程式を用いて決定することができる。^[¹^]^[⁴²^] 一つの代替案として、標本分散と標本尖度に基づいて支持区間の範囲を計算する方法がある。この目的のために、範囲、標本分散と標本サイズ ν に関して過剰尖度を表す方程式を解くことができる（§ 尖度および§ 代替パラメータ化、4つのパラメータを参照）。 ${\hat {a}},{\hat {c}}$ $({\hat {c}}-{\hat {a}})$ $({\hat {c}}-{\hat {a}})$

${\text{sample excess kurtosis}}={\frac {6}{(3+{\hat {\nu }})(2+{\hat {\nu }})}}{\bigg (}{\frac {({\hat {c}}-{\hat {a}})^{2}}{\text{(sample variance)}}}-6-5{\hat {\nu }}{\bigg )}$

次を得る：

$({\hat {c}}-{\hat {a}})={\sqrt {\text{(sample variance)}}}{\sqrt {6+5{\hat {\nu }}+{\frac {(2+{\hat {\nu }})(3+{\hat {\nu }})}{6}}{\text{(sample excess kurtosis)}}}}$

別の方法としては、標本分散と標本歪度に基づいて支持区間の範囲を計算することです。 ^[⁴²^] この目的のために、範囲を用いて、標本分散と標本サイズνで歪度の2乗を表す式を解くことができます（「歪度」および「代替パラメータ化、4つのパラメータ」のセクションを参照）。 $({\hat {c}}-{\hat {a}})$ $({\hat {c}}-{\hat {a}})$

$({\text{sample skewness}})^{2}={\frac {4}{(2+{\hat {\nu }})^{2}}}{\bigg (}{\frac {({\hat {c}}-{\hat {a}})^{2}}{\text{(sample variance)}}}-4(1+{\hat {\nu }}){\bigg )}$

入手するには：^{[ 42 ]}

$({\hat {c}}-{\hat {a}})={\frac {\sqrt {\text{(sample variance)}}}{2}}{\sqrt {(2+{\hat {\nu }})^{2}({\text{sample skewness}})^{2}+16(1+{\hat {\nu }})}}$

残りのパラメータは、サンプル平均と以前に得られたパラメータから決定できます。 $({\hat {c}}-{\hat {a}}),{\hat {\alpha }},{\hat {\nu }}={\hat {\alpha }}+{\hat {\beta }}$

${\hat {a}}=({\text{sample mean}})-\left({\frac {\hat {\alpha }}{\hat {\nu }}}\right)({\hat {c}}-{\hat {a}})$

そして最後に、。 ${\hat {c}}=({\hat {c}}-{\hat {a}})+{\hat {a}}$

上記の式では、サンプルモーメントの推定値として、たとえば次の式を取ることができます。

${\begin{aligned}{\text{sample mean}}&={\overline {y}}={\frac {1}{N}}\sum _{i=1}^{N}Y_{i}\\{\text{sample variance}}&={\overline {v}}_{Y}={\frac {1}{N-1}}\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{2}\\{\text{sample skewness}}&=G_{1}={\frac {N}{(N-1)(N-2)}}{\frac {\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{3}}{{\overline {v}}_{Y}^{\frac {3}{2}}}}\\{\text{sample excess kurtosis}}&=G_{2}={\frac {N(N+1)}{(N-1)(N-2)(N-3)}}{\frac {\sum _{i=1}^{N}(Y_{i}-{\overline {y}})^{4}}{{\overline {v}}_{Y}^{2}}}-{\frac {3(N-1)^{2}}{(N-2)(N-3)}}\end{aligned}}$

標本歪度の推定値G ₁と標本尖度の推定値G _2は、DAP / SAS、PSPP / SPSS、Excelで使用されています。ただし、 BMDPでは使用されず、（ ^[⁴⁶^]によると） 1998 年のMINITABでも使用されていませんでした。実際、 Joanes と Gill は 1998 年の研究^[⁴⁶^]で、 BMDPとMINITAB（当時）で使用されている歪度と尖度の推定値は正規標本では分散と平均二乗誤差が小さいが、 DAP / SAS、PSPP / SPSSで使用されている歪度と尖度の推定値、つまりG ₁とG ₂は、非常に歪んだ分布の標本では平均二乗誤差が小さいと結論付けています。このため、上記の式では「標本の歪度」などについて明記し、歪度と尖度の最適な推定値は歪度の大きさに依存する（JoanesとGill ^[⁴⁶^]で示されているように）ため、ユーザーは問題に応じて最適な推定値を選択する必要があることを明確にしています。

最大尤度

2つの未知パラメータ

ガンマ分布の最尤推定値の場合と同様に、ベータ分布の最尤推定値は、形状パラメータの任意の値に対して一般的な閉形式の解を持ちません。X 1 , ..., X N がそれぞれベータ分布に従う独立確率変数である場合、_N個の_iid観測値に対する結合対数尤度関数は次のようになります。

${\begin{aligned}\ln \,{\mathcal {L}}(\alpha ,\beta \mid X)&=\sum _{i=1}^{N}\ln {\mathcal {L}}_{i}(\alpha ,\beta \mid X_{i})\\&=\sum _{i=1}^{N}\ln f(X_{i};\alpha ,\beta )\\&=\sum _{i=1}^{N}\ln {\frac {X_{i}^{\alpha -1}(1-X_{i})^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}\\&=(\alpha -1)\sum _{i=1}^{N}\ln X_{i}+(\beta -1)\sum _{i=1}^{N}\ln(1-X_{i})-N\ln \mathrm {B} (\alpha ,\beta )\end{aligned}}$

形状パラメータに関する最大値を見つけるには、形状パラメータに関する偏微分を取り、式をゼロに設定して形状パラメータの最大尤度推定値を生成します。

${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha }}=\sum _{i=1}^{N}\ln X_{i}-N{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}=0$ ${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta }}=\sum _{i=1}^{N}\ln(1-X_{i})-N{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \beta }}=0$

ここで：

${\begin{aligned}{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha }}&=-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \alpha }}+{\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}+{\frac {\partial \ln \Gamma (\beta )}{\partial \alpha }}\\[1ex]&=-\psi (\alpha +\beta )+\psi (\alpha )+0\end{aligned}}$ ${\begin{aligned}{\frac {\partial \ln \mathrm {B} (\alpha ,\beta )}{\partial \beta }}&=-{\frac {\partial \ln \Gamma (\alpha +\beta )}{\partial \beta }}+{\frac {\partial \ln \Gamma (\alpha )}{\partial \beta }}+{\frac {\partial \ln \Gamma (\beta )}{\partial \beta }}\\[1ex]&=-\psi (\alpha +\beta )+0+\psi (\beta )\end{aligned}}$

ψ(α)で表される二重ガンマ関数は、ガンマ関数の対数微分として定義されているため：^[¹⁸^]

$\psi (\alpha )={\frac {\partial \ln \Gamma (\alpha )}{\partial \alpha }}$

接線勾配がゼロの値が（鞍点や最小値ではなく）最大値となることを保証するには、曲率が負であるという条件も満たす必要がある。これは、形状パラメータに関する2次偏微分が負であることを満たすことを意味する。

${\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha ^{2}}}=-N{\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha ^{2}}}<0$ ${\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta ^{2}}}=-N{\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \beta ^{2}}}<0$

前の式を使用すると、これは次の式と同等になります。

${\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \alpha ^{2}}}=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )>0$ ${\frac {\partial ^{2}\ln \mathrm {B} (\alpha ,\beta )}{\partial \beta ^{2}}}=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )>0$

ここで、三ガンマ関数（ψ ₁ ( α )と表記）は、ポリガンマ関数の2番目であり、二ガンマ関数の導関数として定義されます。

$\psi _{1}(\alpha )={\frac {\partial ^{2}\ln \Gamma (\alpha )}{\partial \alpha ^{2}}}=\,{\frac {\partial \,\psi (\alpha )}{\partial \alpha }}.$

これらの条件は、対数変換された変数の分散が正であると述べることと同等です。

$\operatorname {var} [\ln(X)]=\operatorname {E} [\ln ^{2}(X)]-(\operatorname {E} [\ln(X)])^{2}=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )$ $\operatorname {var} [\ln(1-X)]=\operatorname {E} [\ln ^{2}(1-X)]-(\operatorname {E} [\ln(1-X)])^{2}=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )$

したがって、最大の負の曲率の条件は次のステートメントと同等です。

$\operatorname {var} [\ln(X)]>0$ $\operatorname {var} [\ln(1-X)]>0$

あるいは、最大の負の曲率の条件は、幾何平均G _XとG _（1−X）の次の対数微分が正であると述べることと同等です。

$\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\frac {\partial \ln G_{X}}{\partial \alpha }}>0$ $\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\frac {\partial \ln G_{(1-X)}}{\partial \beta }}>0$

これらの傾きは確かに正ですが、他の傾きは負です。

${\frac {\partial \,\ln G_{X}}{\partial \beta }},{\frac {\partial \ln G_{1-X}}{\partial \alpha }}<0.$

αとβに対する平均値と中央値の傾きは、同様の符号挙動を示します。

形状パラメータに関する偏微分が最大値でゼロになるという条件から、平均対数尤度に対する次の最大尤度推定方程式の連立方程式が得られる。これを逆行列で表すと、サンプルX ₁ , ..., X _Nの対数の（既知の）平均に関する（未知の）形状パラメータ推定値が得られる。^[¹^] ${\hat {\alpha }},{\hat {\beta }}$

${\begin{aligned}{\hat {\operatorname {E} }}[\ln(X)]&=\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}=\ln {\hat {G}}_{X}\\{\hat {\operatorname {E} }}[\ln(1-X)]&=\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln(1-X_{i})=\ln {\hat {G}}_{1-X}\end{aligned}}$

ここで、は標本幾何平均の対数、はXの鏡像である (1 − X )に基づく標本幾何平均の対数であると認識します。については、が成り立ちます。 $\log {\hat {G}}_{X}$ $\log {\hat {G}}_{1-X}$ ${\hat {\alpha }}={\hat {\beta }}$ ${\hat {G}}_{X}={\hat {G}}_{1-X}$

${\begin{aligned}{\hat {G}}_{X}&=\prod _{i=1}^{N}(X_{i})^{1/N}\\{\hat {G}}_{1-X}&=\prod _{i=1}^{N}(1-X_{i})^{1/N}\end{aligned}}$

形状パラメータ推定値のディガンマ関数を含むこれらの連立方程式は、例えばBeckmanら^[⁴⁷^]が行ったような数値手法で解く必要がある。Gnanadesikanらはいくつかのケースについて数値解を与えている。^[⁴⁸^] NLJohnsonとS.Kotz ^[¹^]は、「小さすぎない」形状パラメータ推定値の場合、ディガンマ関数の対数近似を使用して反復解の初期値を取得できることを示唆している。この近似から得られる方程式は正確に解くことができるためである。 ${\hat {\alpha }},{\hat {\beta }}$ ${\hat {\alpha }},{\hat {\beta }}$ $\psi ({\hat {\alpha }})\approx \ln({\hat {\alpha }}-{\tfrac {1}{2}})$

$\ln {\frac {{\hat {\alpha }}-{\frac {1}{2}}}{{\hat {\alpha }}+{\hat {\beta }}-{\frac {1}{2}}}}\approx \ln {\hat {G}}_{X}$ $\ln {\frac {{\hat {\beta }}-{\frac {1}{2}}}{{\hat {\alpha }}+{\hat {\beta }}-{\frac {1}{2}}}}\approx \ln {\hat {G}}_{1-X}$

これにより、反復解の初期値（サンプル幾何平均による推定形状パラメータ）は次のようになります。

${\hat {\alpha }}\approx {\frac {1}{2}}+{\frac {{\hat {G}}_{X}}{2\left(1-{\hat {G}}_{X}-{\hat {G}}_{1-X}\right)}}{\text{ if }}{\hat {\alpha }}>1$ ${\hat {\beta }}\approx {\frac {1}{2}}+{\frac {{\hat {G}}_{1-X}}{2\left(1-{\hat {G}}_{X}-{\hat {G}}_{1-X}\right)}}{\text{ if }}{\hat {\beta }}>1$

あるいは、モーメント法によって提供される推定値は、二重ガンマ関数に関する最大尤度結合方程式の反復解の初期値として使用することもできます。

分布が[0, 1]以外の既知の区間、例えば[ a , c ]の確率変数Xで求められる場合、最初の式の ln( X _{i )を次のように置き換えます。}

$\ln {\frac {Y_{i}-a}{c-a}},$

2番目の式のln(1− X _i )を次のように置き換える。

$\ln {\frac {c-Y_{i}}{c-a}}$

(以下の「代替パラメータ化、4 つのパラメータ」セクションを参照してください)。

形状パラメータの1つが既知であれば、問題は大幅に簡素化されます。以下のロジット変換を用いて、未知の形状パラメータを解くことができます（となる歪んだケース、そうでない場合、対称なケースでは、1つが既知であれば両方のパラメータが既知です）。 ${\hat {\alpha }}\neq {\hat {\beta }}$

${\hat {\operatorname {E} }}\left[\ln {\frac {X}{1-X}}\right]=\psi ({\hat {\alpha }})-\psi ({\hat {\beta }})={\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {X_{i}}{1-X_{i}}}=\ln {\hat {G}}_{X}-\ln {\hat {G}}_{1-X}$

このロジット変換は、変数Xをその鏡像（X /(1- X)）で割る変換の対数であり、サポート[0, +∞]を持つ「逆ベータ分布」またはベータプライム分布（第2種ベータ分布またはピアソンのタイプVIとも呼ばれる）になります。「対数変換されたランダム変数のモーメント」のセクションで以前に説明したように、ジョンソン^[²⁵^]によって研究されたロジット変換は、元の変数Xに基づく有限サポート[0, 1]を実数線（-∞、+∞）の両方向で無限サポートに拡張します。 $\ln {\frac {X}{1-X}}$

例えば、が既知である場合、未知のパラメータはこの式の右辺の逆^[⁴⁹^]二ガンマ関数によって得ることができる。 ${\hat {\beta }}$ ${\hat {\alpha }}$

$\psi ({\hat {\alpha }})={\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {X_{i}}{1-X_{i}}}+\psi ({\hat {\beta }})$ ${\hat {\alpha }}=\psi ^{-1}\left(\ln {\hat {G}}_{X}-\ln {\hat {G}}_{(1-X)}+\psi ({\hat {\beta }})\right)$

特に、形状パラメータの1つが1の値を持つ場合、例えば（境界サポート[0,1]のべき関数分布）の場合、式中の恒等式ψ( x + 1) = ψ( x ) + 1/ xを使用すると、未知のパラメータの最大尤度推定値は^[¹^]とまったく同じになります。 ${\hat {\beta }}=1$ $\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{X}$ ${\hat {\alpha }}$

${\hat {\alpha }}=-{\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}}}=-{\frac {1}{\ln {\hat {G}}_{X}}}$

ベータは[0, 1]のサポートを持つので、であり、したがってであり、したがって ${\hat {G}}_{X}<1$ $(-\ln {\hat {G}}_{X})>0$ ${\hat {\alpha }}>0.$

結論として、ベータ分布の形状パラメータの最尤推定値は (一般に) 標本の幾何平均、およびXの鏡像である (1− X ))に基づく標本の幾何平均の複雑な関数です。モーメント法で 2 つの形状パラメータを推定するために平均に加えて分散が必要なのに、最尤法で 2 つの形状パラメータを推定するために (対数または幾何) 分散は必要なく、幾何平均だけで十分なのはなぜか、という疑問が生じるかもしれません。その答えは、平均は幾何平均ほど多くの情報を提供しないためです。等しい形状パラメータα = βを持つベータ分布の場合、平均は、形状パラメータの値に関係なく、したがって統計的分散 (分散) の値に関係なく、正確に 1/2 になります。一方、等しい形状パラメータα = βを持つベータ分布の幾何平均は、形状パラメータの値に依存するため、より多くの情報が含まれます。また、ベータ分布の幾何平均は平均が満たす対称条件を満たさないため、Xに基づく幾何平均と(1 − X )に基づく幾何平均の両方を使用することで、最大尤度法は分散を使用せずに両方のパラメータα = βの最良の推定値を提供することができます。

Ni iid観測値ごとの結合対数尤度は、十分な統計量(サンプル幾何平均) の観点から次のように表すことができます。

${\frac {\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N}}=(\alpha -1)\ln {\hat {G}}_{X}+(\beta -1)\ln {\hat {G}}_{(1-X)}-\ln \mathrm {B} (\alpha ,\beta ).$

標本の幾何平均の値を固定して、 N 個の観測値あたりの結合対数尤度をプロットすることで、尤度関数が形状パラメータ α と β の関数としてどのように振舞うかを見ることができます。このようなプロットでは、形状パラメータ推定値は尤度関数の最大値に対応します。すべての尤度関数が α = β = 1 で交差していることを示す添付のグラフを参照してください。これは、最大エントロピーを与える形状パラメータの値に対応します (最大エントロピーは形状パラメータが 1 に等しい場合、つまり一様分布の場合に発生します)。プロットから、尤度関数は形状パラメータ推定値の値が 0 に近い場合に鋭いピークを示しますが、形状パラメータ推定値の値が 1 より大きい場合、尤度関数は非常に平坦になり、ピークがあまり明確でないことがわかります。明らかに、ベータ分布の最大尤度パラメータ推定法は、形状パラメータ推定値の値が大きくなるにつれてピーク定義の不確実性が増大するため、形状パラメータ推定値が大きい場合にはあまり受け入れられなくなります。尤度関数の曲率の表現が幾何分散で表されていることに注目すれば、同じ結論に達することができる。 ${\hat {\alpha }},{\hat {\beta }}$

${\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \alpha ^{2}}}=-\operatorname {var} [\ln X]$ ${\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{\partial \beta ^{2}}}=-\operatorname {var} [\ln(1-X)]$

これらの分散（ひいては曲率）は、形状パラメータαとβの値が小さい場合、はるかに大きくなります。しかし、形状パラメータα、β > 1の場合、分散（ひいては曲率）は平坦になります。同様に、この結果はクラメール・ラオ境界から導かれます。なぜなら、ベータ分布のフィッシャー情報行列成分はこれらの対数分散だからです。クラメール・ラオ境界は、αの任意の不偏推定値の分散がフィッシャー情報量の逆数によって制限されることを示しています。 ${\hat {\alpha }}$

$\mathrm {var} ({\hat {\alpha }})\geq {\frac {1}{\operatorname {var} [\ln X]}}\geq {\frac {1}{\psi _{1}({\hat {\alpha }})-\psi _{1}({\hat {\alpha }}+{\hat {\beta }})}}$ $\mathrm {var} ({\hat {\beta }})\geq {\frac {1}{\operatorname {var} [\ln(1-X)]}}\geq {\frac {1}{\psi _{1}({\hat {\beta }})-\psi _{1}({\hat {\alpha }}+{\hat {\beta }})}}$

したがって、対数分散が減少するにつれて、α と β が増加すると推定値の分散が増加します。

また、サンプル幾何平均の対数に対するディガンマ関数式を使用して、N iid観測値ごとの結合対数尤度を次のように表すこともできます。

${\frac {\ln \,{\mathcal {L}}(\alpha ,\beta \mid X)}{N}}=(\alpha -1)(\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }}))+(\beta -1)(\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }}))-\ln \mathrm {B} (\alpha ,\beta )$

この式はクロスエントロピーの負数と同一です（「情報量（エントロピー）」のセクションを参照）。したがって、N iid観測値ごとに形状パラメータの結合対数尤度の最大値を求めることは、形状パラメータの関数としてベータ分布のクロスエントロピーの最小値を求めることと同一です。

${\begin{aligned}{\frac {\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N}}&=-H=-h-D_{\mathrm {KL} }\\&=-\ln \mathrm {B} (\alpha ,\beta )+(\alpha -1)\psi ({\hat {\alpha }})+(\beta -1)\psi ({\hat {\beta }})-(\alpha +\beta -2)\psi ({\hat {\alpha }}+{\hat {\beta }})\end{aligned}}$

クロスエントロピーは次のように定義されます。

$H=\int _{0}^{1}-f(X;{\hat {\alpha }},{\hat {\beta }})\ln(f(X;\alpha ,\beta ))\,{\rm {d}}X$

4つの未知のパラメータ

この手順は、2つの未知パラメータの場合と同様です。Y 1 、…、Y N がそれぞれ4つのパラメータを持つベータ分布に従う独立確率変数である場合、_N個の_iid観測値の結合対数尤度関数は次のようになります。

${\begin{aligned}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)&=\sum _{i=1}^{N}\ln \,{\mathcal {L}}_{i}(\alpha ,\beta ,a,c\mid Y_{i})\\&=\sum _{i=1}^{N}\ln f(Y_{i};\alpha ,\beta ,a,c)\\&=\sum _{i=1}^{N}\ln {\frac {(Y_{i}-a)^{\alpha -1}(c-Y_{i})^{\beta -1}}{(c-a)^{\alpha +\beta -1}\mathrm {B} (\alpha ,\beta )}}\\&=(\alpha -1)\sum _{i=1}^{N}\ln(Y_{i}-a)+(\beta -1)\sum _{i=1}^{N}\ln(c-Y_{i})-N\ln \mathrm {B} (\alpha ,\beta )-N(\alpha +\beta -1)\ln(c-a)\end{aligned}}$

形状パラメータに関する最大値を見つけるには、形状パラメータに関する偏微分を取り、式をゼロに設定して形状パラメータの最大尤度推定値を生成します。

${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha }}=\sum _{i=1}^{N}\ln(Y_{i}-a)-N(-\psi (\alpha +\beta )+\psi (\alpha ))-N\ln(c-a)=0$ ${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta }}=\sum _{i=1}^{N}\ln(c-Y_{i})-N(-\psi (\alpha +\beta )+\psi (\beta ))-N\ln(c-a)=0$ ${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a}}=-(\alpha -1)\sum _{i=1}^{N}{\frac {1}{Y_{i}-a}}\,+N(\alpha +\beta -1){\frac {1}{c-a}}=0$ ${\frac {\partial \ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c}}=(\beta -1)\sum _{i=1}^{N}{\frac {1}{c-Y_{i}}}\,-N(\alpha +\beta -1){\frac {1}{c-a}}=0$

これらの方程式は、4つのパラメータの最大尤度推定値に基づいて、次の4つの連立方程式（最初の2つの方程式は幾何平均、次の2つの方程式は調和平均）として再構成できます。 ${\hat {\alpha }},{\hat {\beta }},{\hat {a}},{\hat {c}}$

${\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {Y_{i}-{\hat {a}}}{{\hat {c}}-{\hat {a}}}}=\psi ({\hat {\alpha }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{X}$ ${\frac {1}{N}}\sum _{i=1}^{N}\ln {\frac {{\hat {c}}-Y_{i}}{{\hat {c}}-{\hat {a}}}}=\psi ({\hat {\beta }})-\psi ({\hat {\alpha }}+{\hat {\beta }})=\ln {\hat {G}}_{1-X}$ ${\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}{\frac {{\hat {c}}-{\hat {a}}}{Y_{i}-{\hat {a}}}}}}={\frac {{\hat {\alpha }}-1}{{\hat {\alpha }}+{\hat {\beta }}-1}}={\hat {H}}_{X}$ ${\frac {1}{{\frac {1}{N}}\sum _{i=1}^{N}{\frac {{\hat {c}}-{\hat {a}}}{{\hat {c}}-Y_{i}}}}}={\frac {{\hat {\beta }}-1}{{\hat {\alpha }}+{\hat {\beta }}-1}}={\hat {H}}_{1-X}$

サンプル幾何平均付き:

${\hat {G}}_{X}=\prod _{i=1}^{N}\left({\frac {Y_{i}-{\hat {a}}}{{\hat {c}}-{\hat {a}}}}\right)^{\frac {1}{N}}$ ${\hat {G}}_{(1-X)}=\prod _{i=1}^{N}\left({\frac {{\hat {c}}-Y_{i}}{{\hat {c}}-{\hat {a}}}}\right)^{\frac {1}{N}}$

パラメータは、非線形な方法（1/ N乗）で幾何平均式の中に埋め込まれます。これにより、反復計算のための初期値近似値であっても、一般に閉じた形式の解は得られません。1 つの代替案として、反復計算の初期値として、4 パラメータの場合のモーメント法の解から得られた値を使用する方法があります。さらに、調和平均の式はに対してのみ明確に定義されるため、4 パラメータの場合の形状パラメータが 1 より小さい場合の最大尤度解は得られません。4 パラメータの場合のフィッシャー情報行列は、 α、β > 2 の場合のみ正定値です（詳細については、「4 パラメータの場合のフィッシャー情報行列」のセクションを参照）。これは、変曲点がモードのいずれかの側に位置するベル型（対称または非対称）ベータ分布の場合です。次のフィッシャー情報成分（対数尤度関数の曲率の期待値を表す）は、次の値で特異点を持ちます。 ${\hat {a}},{\hat {c}}$ ${\hat {\alpha }},{\hat {\beta }}>1$

$\alpha =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a^{2}}}\right]={\mathcal {I}}_{a,a}$ $\beta =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c^{2}}}\right]={\mathcal {I}}_{c,c}$ $\alpha =2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \partial a}}\right]={\mathcal {I}}_{\alpha ,a}$ $\beta =1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \partial c}}\right]={\mathcal {I}}_{\beta ,c}$

（詳細については、フィッシャー情報行列のセクションを参照してください。）したがって、一様分布（Beta(1, 1, a , c )）や逆正弦分布（Beta (1/2, 1/2, a , c )）など、4パラメータベータ分布族に属するよく知られた分布に対しては、厳密に最尤推定を行うことはできません。 NLJohnsonとS.Kotz ^{[ 1 ]}は調和平均の式を無視し、代わりに「aとcが未知で、a、c、α、βの最尤推定値が必要な場合は、上記の手順（2つの未知パラメータの場合、XはX = ( Y − a )/( c − a )に変換されます）を、 aとcの一連の試行値を使用して繰り返すことで、最大尤度（ aとcが与えられた場合）が可能な限り大きくなるペア（a、c ）が得られるまで繰り返すことができます」と提案しています（ここでは、明確にするために、パラメータの表記法を現在の表記法に翻訳しています）。

フィッシャー情報行列

確率変数Xの確率密度をf(x;α)とする。対数尤度関数の（未知で推定される）パラメータαに関する偏微分をスコアと呼ぶ。スコアの2次モーメントをフィッシャー情報と呼ぶ

${\mathcal {I}}(\alpha )=\operatorname {E} \left[\left({\frac {\partial }{\partial \alpha }}\ln {\mathcal {L}}(\alpha \mid X)\right)^{2}\right],$

スコアの期待値はゼロなので、フィッシャー情報もスコアの平均を中心とした 2 番目のモーメント、つまりスコアの分散になります。

対数尤度関数がパラメータαに関して2回微分可能であり、特定の正則性条件下では、^{[ 50 ]}フィッシャー情報は次のようにも表される（これは計算目的にはより便利な形式であることが多い）。

${\mathcal {I}}(\alpha )=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \alpha ^{2}}}\ln {\mathcal {L}}(\alpha \mid X)\right].$

したがって、フィッシャー情報量は、対数尤度関数のパラメータαに関する2次導関数の期待値の負の値である。したがって、フィッシャー情報量は、αの対数尤度関数の曲率の尺度である。曲率が低い（したがって曲率半径が大きい）平坦な対数尤度関数曲線はフィッシャー情報量が低い。一方、曲率が大きい（したがって曲率半径が小さい）対数尤度関数曲線はフィッシャー情報量が高い。フィッシャー情報行列がパラメータの評価で計算される場合（「観測されたフィッシャー情報行列」）、それは真の対数尤度曲面を2次項まで考慮したテイラー級数近似で置き換えることと同等である。^[⁵¹^] フィッシャー情報量の文脈における「情報」という言葉は、パラメータに関する情報を指す。例えば、推定値、十分性、推定量の分散特性などの情報である。 Cramér -Rao境界は、フィッシャー情報の逆数がパラメータαの任意の推定値の分散の下限値であることを示しています。

$\operatorname {var} [{\hat {\alpha }}]\geq {\frac {1}{{\mathcal {I}}(\alpha )}}.$

パラメータαの推定値を推定できる精度は、対数尤度関数のフィッシャー情報量によって制限される。フィッシャー情報量は、分布のパラメータを推定する際に生じる最小誤差の尺度であり、パラメータに関する2つの対立仮説を区別するために必要な実験の分解能の尺度とみなすことができる。^{[ 52 ]}

N個のパラメータがある場合

${\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{N}\end{bmatrix}},$

フィッシャー情報は、N × Nの正半正定値対称行列、つまりフィッシャー情報行列の形を取り、その典型的な要素は次のとおりです。

$({\mathcal {I}}(\theta ))_{i,j}=\operatorname {E} \left[{\frac {\partial \ln {\mathcal {L}}}{\partial \theta _{i}}}\cdot {\frac {\partial \ln {\mathcal {L}}}{\partial \theta _{j}}}\right].$

一定の規則性条件下では、^{[ 50 ]}フィッシャー情報行列は次のような形式でも表すことができ、計算にはより便利な場合が多い。

$({\mathcal {I}}(\theta ))_{i,j}=-\operatorname {E} \left[{\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{i}\,\partial \theta _{j}}}\right]\,.$

X ₁ , ..., X _{N の}iidランダム変数を用いて、 X ₁ , ..., X _{N の}側面を持つN次元の「箱」を構築することができる。CostaとCover ^[⁵³^] は、（シャノン）微分エントロピーh ( X )は典型的な集合の体積（真のエントロピーに近い標本エントロピーを持つ）に関連し、フィッシャー情報はこの典型的な集合の面に関連していることを示す。

2つのパラメータ

形状パラメータαとβでパラメータ化されたベータ分布を持つX ₁、…、X _{N 個}の独立確率変数について、 N個のiid観測値の結合対数尤度関数は次のようになります

$\ln {\mathcal {L}}(\alpha ,\beta \mid X)=(\alpha -1)\sum _{i=1}^{N}\ln X_{i}+(\beta -1)\sum _{i=1}^{N}\ln(1-X_{i})-N\ln \mathrm {B} (\alpha ,\beta )$

したがって、 N iid観測値ごとの結合対数尤度関数は

${\frac {1}{N}}\ln {\mathcal {L}}(\alpha ,\beta \mid X)=(\alpha -1){\frac {1}{N}}\sum _{i=1}^{N}\ln X_{i}+(\beta -1){\frac {1}{N}}\sum _{i=1}^{N}\ln(1-X_{i})-\,\ln \mathrm {B} (\alpha ,\beta ).$

2パラメータの場合、フィッシャー情報量は4つの成分（対角成分2つと非対角成分2つ）を持ちます。フィッシャー情報行列は対称行列であるため、これらの非対角成分のうち1つは独立です。したがって、フィッシャー情報行列は3つの独立成分（対角成分2つと非対角成分1つ）を持ちます。

AryalとNadarajah ^{[ 54 ]}は4パラメータの場合のフィッシャーの情報行列を計算し、そこから2パラメータの場合の行列は次のように得られる。

$-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \alpha ^{2}}}=\operatorname {var} [\ln(X)]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\alpha }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \alpha ^{2}}}\right]=\ln \operatorname {var} _{GX}$ $-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \beta ^{2}}}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\beta ,\beta }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\partial \beta ^{2}}}\right]=\ln \operatorname {var} _{G(1-X)}$ $-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \alpha \,\partial \beta }}=\operatorname {cov} [\ln X,\ln(1-X)]=-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\beta }=\operatorname {E} \left[-{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta \mid X)}{N\,\partial \alpha \,\partial \beta }}\right]=\ln \operatorname {cov} _{G{X,(1-X)}}$

フィッシャー情報行列は対称なので

${\mathcal {I}}_{\alpha ,\beta }={\mathcal {I}}_{\beta ,\alpha }=\ln \operatorname {cov} _{G{X,(1-X)}}$

フィッシャー情報量成分は、対数幾何分散および対数幾何共分散に等しい。したがって、これらは、二ガンマ関数の導関数として定義されるポリガンマ関数の2番目である、ψ _{1 (α) と表記される}三ガンマ関数として表すことができる。

$\psi _{1}(\alpha )={\frac {d^{2}\ln \Gamma (\alpha )}{\partial \alpha ^{2}}}=\,{\frac {\partial \psi (\alpha )}{\partial \alpha }}.$

これらの導関数は§でも導出されます。対数尤度関数の 2つの未知パラメータとプロットもこのセクションで示されています。§幾何分散と共分散には、フィッシャー情報行列の成分（形状パラメータαとβの関数としての対数幾何分散と対数幾何共分散）のプロットと詳細な説明が含まれています。§ 対数変換されたランダム変数のモーメントには、対数変換されたランダム変数のモーメントの式が含まれています。フィッシャー情報成分との画像は§幾何分散に示されています。 ${\mathcal {I}}_{\alpha ,\alpha },{\mathcal {I}}_{\beta ,\beta }$ ${\mathcal {I}}_{\alpha ,\beta }$

フィッシャー情報行列の行列式は興味深いものです（例えば、ジェフリーズの事前確率の計算など）。フィッシャー情報行列の個々の要素の式から、ベータ分布に対するフィッシャー（対称）情報行列の行列式は次のようになります。

${\begin{aligned}\det({\mathcal {I}}(\alpha ,\beta ))&={\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\alpha ,\beta }\\[4pt]&=(\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta ))(\psi _{1}(\beta )-\psi _{1}(\alpha +\beta ))-(-\psi _{1}(\alpha +\beta ))(-\psi _{1}(\alpha +\beta ))\\[4pt]&=\psi _{1}(\alpha )\psi _{1}(\beta )-(\psi _{1}(\alpha )+\psi _{1}(\beta ))\psi _{1}(\alpha +\beta )\\[4pt]\lim _{\alpha \to 0}\det({\mathcal {I}}(\alpha ,\beta ))&=\lim _{\beta \to 0}\det({\mathcal {I}}(\alpha ,\beta ))=\infty \\[4pt]\lim _{\alpha \to \infty }\det({\mathcal {I}}(\alpha ,\beta ))&=\lim _{\beta \to \infty }\det({\mathcal {I}}(\alpha ,\beta ))=0\end{aligned}}$

シルベスターの基準（対角要素がすべて正であるかどうかをチェックする）から、2 つのパラメータの場合のフィッシャー情報行列は正定値であることがわかります（形状パラメータが正のα > 0 および β > 0であるという標準条件下で）。

4つのパラメータ

Y ₁、...、Y _{N が}それぞれ4 つのパラメータ（指数αとβ、およびa（分布範囲の最小値）、c（分布範囲の最大値））を持つベータ分布に従う独立したランダム変数である場合（「代替パラメータ化」、「4 つのパラメータ」のセクション）、確率密度関数は次のようになります。

$f(y;\alpha ,\beta ,a,c)={\frac {f(x;\alpha ,\beta )}{c-a}}={\frac {\left({\frac {y-a}{c-a}}\right)^{\alpha -1}\left({\frac {c-y}{c-a}}\right)^{\beta -1}}{(c-a)B(\alpha ,\beta )}}={\frac {(y-a)^{\alpha -1}(c-y)^{\beta -1}}{(c-a)^{\alpha +\beta -1}B(\alpha ,\beta )}}.$

Ni iid観測値ごとの結合対数尤度関数は次の通りである。

${\frac {1}{N}}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)={\frac {\alpha -1}{N}}\sum _{i=1}^{N}\ln(Y_{i}-a)+{\frac {\beta -1}{N}}\sum _{i=1}^{N}\ln(c-Y_{i})-\ln \mathrm {B} (\alpha ,\beta )-(\alpha +\beta -1)\ln(c-a)$

4パラメータの場合、フィッシャー情報量は4×4=16成分を持つ。そのうち12個の非対角成分（合計4×4 - 対角成分4）を持つ。フィッシャー情報行列は対称行列であるため、これらの成分の半分（12/2=6）は独立である。したがって、フィッシャー情報行列は6個の独立した非対角成分と4個の対角成分、つまり10個の独立した成分を持つ。AryalとNadarajah ^{[ 54 ]は}、 4パラメータの場合のフィッシャー情報行列を次のように計算した。

$-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha ^{2}}}=\operatorname {var} [\ln(X)]=\psi _{1}(\alpha )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\alpha }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha ^{2}}}\right]=\ln(\operatorname {var_{GX}} )$ $-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta ^{2}}}=\operatorname {var} [\ln(1-X)]=\psi _{1}(\beta )-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\beta ,\beta }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta ^{2}}}\right]=\ln(\operatorname {var_{G(1-X)}} )$ $-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial \beta }}=\operatorname {cov} [\ln X,(1-X)]=-\psi _{1}(\alpha +\beta )={\mathcal {I}}_{\alpha ,\beta }=\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial \beta }}\right]=\ln(\operatorname {cov} _{G{X,(1-X)}})$

上記の式では、式 var[ln( X )] = ln(var _GX )でYの代わりにXを使用してもエラーにはなりません。対数幾何分散と対数幾何共分散に関する式は、2 つのパラメーターX ~ Beta( α、β ) パラメーター化の関数として出現します。これは、4 つのパラメーターの場合に指数 ( α、β ) について偏微分を取ると、2 つのパラメーターの場合と同じ式が得られるためです。つまり、4 つのパラメーターのフィッシャー情報行列のこれらの項は、分布の範囲の最小値aと最大値cとは無関係です。対数尤度関数を指数αとβについて二重微分したときにゼロでない項は、ベータ関数の対数の 2 次微分 ln(B( α、β )) のみです。この項は、分布の範囲の最小値aと最大値cとは無関係です。「最大尤度」、「2 つの未知のパラメータ」、「4 つの未知のパラメータ」というタイトルのセクションにもこの事実が示されています。

N個のi.idサンプルに対するフィッシャー情報量は、個々のフィッシャー情報量のN倍である（式11.279、Cover and Thomas ^{[ 28 ]}の394ページ）。（AryalとNadarajah ^{[ 54 ]}は、 N = 1の単一観測値を用いてフィッシャー情報量の以下の成分を計算し、 N個の観測値ごとの対数尤度の導関数を考慮した場合と同じ結果を導出した。さらに、以下ではAryalとNadarajahの誤った式を修正した。） ${\mathcal {I}}_{a,a}$

${\begin{aligned}\alpha >2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a^{2}}}\right]&={\mathcal {I}}_{a,a}={\frac {\beta (\alpha +\beta -1)}{(\alpha -2)(c-a)^{2}}}\\\beta >2:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial c^{2}}}\right]&={\mathcal {I}}_{c,c}={\frac {\alpha (\alpha +\beta -1)}{(\beta -2)(c-a)^{2}}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial a\,\partial c}}\right]&={\mathcal {I}}_{a,c}={\frac {(\alpha +\beta -1)}{(c-a)^{2}}}\\\alpha >1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial a}}\right]&={\mathcal {I}}_{\alpha ,a}={\frac {\beta }{(\alpha -1)(c-a)}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \alpha \,\partial c}}\right]&={\mathcal {I}}_{\alpha ,c}={\frac {1}{(c-a)}}\\\operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \,\partial a}}\right]&={\mathcal {I}}_{\beta ,a}=-{\frac {1}{(c-a)}}\\\beta >1:\quad \operatorname {E} \left[-{\frac {1}{N}}{\frac {\partial ^{2}\ln {\mathcal {L}}(\alpha ,\beta ,a,c\mid Y)}{\partial \beta \,\partial c}}\right]&={\mathcal {I}}_{\beta ,c}=-{\frac {\alpha }{(\beta -1)(c-a)}}\end{aligned}}$

フィッシャー情報行列の下2つの対角成分は、パラメータa（分布の範囲の最小値）に関して：、パラメータc（分布の範囲の最大値）に関して：は、それぞれ指数α > 2およびβ > 2に対してのみ定義されます。最小値aのフィッシャー情報行列成分は、指数αが2から上方に近づくにつれて無限大に近づき、最大値cのフィッシャー情報行列成分は、指数βが2から上方に近づくにつれて無限大に近づきます。 ${\mathcal {I}}_{a,a}$ ${\mathcal {I}}_{c,c}$ ${\mathcal {I}}_{a,a}$ ${\mathcal {I}}_{c,c}$

4パラメータの場合のフィッシャー情報行列は、最小値aと最大値cの個々の値には依存せず、範囲全体（c − a ）のみに依存します。さらに、範囲（ c − a ）に依存するフィッシャー情報行列の成分は、その逆数（または逆数の2乗）のみに依存するため、範囲（ c − a ）が増加するとフィッシャー情報量は減少します。

添付の画像は、フィッシャー情報量成分とを示しています。フィッシャー情報量成分との画像は、§ 幾何分散に示されています。これらのフィッシャー情報量成分はすべて盆地のように見え、盆地の「壁」はパラメータの低い値に位置しています。 ${\mathcal {I}}_{a,a}$ ${\mathcal {I}}_{\alpha ,a}$ ${\mathcal {I}}_{\alpha ,\alpha }$ ${\mathcal {I}}_{\beta ,\beta }$

次の 4 パラメータベータ分布のフィッシャー情報量成分は、2 パラメータX ~ Beta(α, β)で表現できます。これは、変換された比率 ((1 − X )/ X ) とその鏡像 ( X /(1 − X )) の期待値であり、範囲 ( c − a ) でスケールされており、解釈に役立つ可能性があります。

${\mathcal {I}}_{\alpha ,a}={\frac {\operatorname {E} \left[{\frac {1-X}{X}}\right]}{c-a}}={\frac {\beta }{(\alpha -1)(c-a)}}{\text{ if }}\alpha >1$ ${\mathcal {I}}_{\beta ,c}=-{\frac {\operatorname {E} \left[{\frac {X}{1-X}}\right]}{c-a}}=-{\frac {\alpha }{(\beta -1)(c-a)}}{\text{ if }}\beta >1$

これらは、「逆ベータ分布」またはベータプライム分布（第2種ベータ分布またはピアソンのタイプVIとも呼ばれる）^{[ 1 ]}とその鏡像の期待値であり、範囲（c − a）でスケーリングされています。

また、以下のフィッシャー情報成分は、調和(1/X)分散または比率変換変数((1-X)/X)に基づく分散で次のように表現できます。

${\begin{aligned}\alpha >2:\quad {\mathcal {I}}_{a,a}&=\operatorname {var} \left[{\frac {1}{X}}\right]\left({\frac {\alpha -1}{c-a}}\right)^{2}=\operatorname {var} \left[{\frac {1-X}{X}}\right]\left({\frac {\alpha -1}{c-a}}\right)^{2}={\frac {\beta (\alpha +\beta -1)}{(\alpha -2)(c-a)^{2}}}\\\beta >2:\quad {\mathcal {I}}_{c,c}&=\operatorname {var} \left[{\frac {1}{1-X}}\right]\left({\frac {\beta -1}{c-a}}\right)^{2}=\operatorname {var} \left[{\frac {X}{1-X}}\right]\left({\frac {\beta -1}{c-a}}\right)^{2}={\frac {\alpha (\alpha +\beta -1)}{(\beta -2)(c-a)^{2}}}\\{\mathcal {I}}_{a,c}&=\operatorname {cov} \left[{\frac {1}{X}},{\frac {1}{1-X}}\right]{\frac {(\alpha -1)(\beta -1)}{(c-a)^{2}}}=\operatorname {cov} \left[{\frac {1-X}{X}},{\frac {X}{1-X}}\right]{\frac {(\alpha -1)(\beta -1)}{(c-a)^{2}}}={\frac {(\alpha +\beta -1)}{(c-a)^{2}}}\end{aligned}}$

これらの期待値については、「線形変換された、積および反転されたランダム変数のモーメント」セクションを参照してください。

フィッシャーの情報行列の行列式は興味深いものです（例えば、ジェフリーズの事前確率の計算など）。個々の要素の式から、4つのパラメータを持つベータ分布のフィッシャーの（対称）情報行列の行列式は次のようになります。

${\begin{aligned}\det({\mathcal {I}}(\alpha ,\beta ,a,c))={}&-{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }+{\mathcal {I}}_{a,a}{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }+{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\beta }^{2}-{\mathcal {I}}_{a,a}{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\beta }^{2}\\&{}-{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,a}+{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}+2{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,a}\\&{}-2{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,a}+{\mathcal {I}}_{\alpha ,c}^{2}{\mathcal {I}}_{\beta ,a}^{2}-{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}^{2}+{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}^{2}{\mathcal {I}}_{\beta ,c}\\&{}-{\mathcal {I}}_{a,a}{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,c}-{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,c}+{\mathcal {I}}_{a,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\alpha ,\beta }{\mathcal {I}}_{\beta ,c}\\&{}-{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,a}{\mathcal {I}}_{\beta ,c}+{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,a}{\mathcal {I}}_{\beta ,c}-{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,a}^{2}{\mathcal {I}}_{\beta ,\beta }\\&{}+2{\mathcal {I}}_{a,c}{\mathcal {I}}_{\alpha ,a}{\mathcal {I}}_{\alpha ,c}{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{a,a}{\mathcal {I}}_{\alpha ,c}^{2}{\mathcal {I}}_{\beta ,\beta }-{\mathcal {I}}_{a,c}^{2}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }+{\mathcal {I}}_{a,a}{\mathcal {I}}_{c,c}{\mathcal {I}}_{\alpha ,\alpha }{\mathcal {I}}_{\beta ,\beta }{\text{ if }}\alpha ,\beta >2\end{aligned}}$

シルベスターの基準（対角要素がすべて正であるかどうかを確認）を用い、対角成分とがα=2およびβ=2で特異点を持つことから、4パラメータの場合のフィッシャー情報行列はα>2およびβ>2に対して正定値となる。α>2およびβ>2の場合、ベータ分布は（対称または非対称の）ベル型となるため、フィッシャー情報行列は、変曲点がモードの両側に位置するベル型（対称または非対称）ベータ分布に対してのみ正定値となる。したがって、4パラメータベータ分布族に属する重要な分布、例えば放物線分布（Beta(2,2,a,c)）や一様分布（Beta(1,1,a,c)）は、4パラメータの場合に爆発する（無限大に近づく）フィッシャー情報量成分（）を持ちます（ただし、これらのフィッシャー情報量成分はすべて2パラメータの場合に定義されています）。4パラメータウィグナー半円分布（Beta(3/2,3/2, a , c )）とアークサイン分布（Beta(1/2,1/2, a , c )）は、4パラメータの場合に負のフィッシャー情報量行列式を持ちます。 ${\mathcal {I}}_{a,a}$ ${\mathcal {I}}_{c,c}$ ${\mathcal {I}}_{a,a},{\mathcal {I}}_{c,c},{\mathcal {I}}_{\alpha ,a},{\mathcal {I}}_{\beta ,c}$

ベイズ推論

ベイズ推論においてベータ分布が用いられるのは、二項分布（ベルヌーイ分布を含む）と幾何分布の共役事前確率分布族を提供するからである。ベータ分布の定義域は確率として捉えることができ、実際、ベータ分布は確率値pの分布を記述するためにしばしば用いられる。^[²⁴^]

$P(p;\alpha ,\beta )={\frac {p^{\alpha -1}(1-p)^{\beta -1}}{\mathrm {B} (\alpha ,\beta )}}.$

ベイズ推論において事前パラメータ値の無知を表す事前確率として使用されるベータ分布の例としては、Beta(1,1)、Beta(0,0)、Beta(1/2,1/2) などがあります。

継承のルール

ベータ分布の古典的な応用例は、18世紀にピエール・シモン・ラプラス^[⁵⁵^]が日の出問題を扱う過程で導入した継承の法則である。これは、確率 p でn 回の条件付き独立ベルヌーイ試行でs 回の成功があった場合、次の試行での期待値の推定値はであると述べている。この推定値はpについての事後分布の期待値、すなわち Beta( s +1, n − s +1) であり、 pについて一様な事前確率(すなわち Beta(1, 1)) を仮定し、p がn 回の試行でs 回の成功を生成したことを観察した場合にベイズの定理によって与えられる。ラプラスの継承の法則は著名な科学者から批判されてきた。RT Cox は、ラプラスによる日の出問題への継承の法則の適用( ^[⁵⁶^] p. 89) を「原理の適切な使用の茶番」と評した。ケインズは（^[⁵⁷^]第30章、382ページ）「実にこれは愚かな定理であり、これを受け入れること自体が信用できない」と述べている。カール・ピアソン^[⁵⁸^]は、n回の試行でn回の成功があった後、次の（ n + 1）回の試行が成功する確率はわずか50%であることを示したが、これはジェフリーズのような科学者によって低すぎると考えられ、提案された科学法則を検証するための実験という科学的プロセスの代表としては受け入れられない。ジェフリーズ（^[⁵⁹^] 128ページ）（C・D・ブロード^[⁶⁰^]の功績）が指摘するように、ラプラスの連続則は、次の試行で成功確率（(n+1)/(n+2)）が高くなる一方で、さらに（n +1）回のサンプルが同程度の大きさで成功する確率は中程度（50%）に過ぎない。パークス^[⁶¹^]が指摘するように、 ${\frac {s+1}{n+2}}$ 「継承の法則自体は受け入れがたいものである。この法則は次の試行に確率を割り当てるが、これは実際に観測された連なりが平均的な連なりであり、常に平均的な連なりの終わりにいるという仮定を意味する。平均的な連なりの途中にいると仮定する方が合理的であると思われるだろう。明らかに、両方の確率が合理的な信念と一致するためには、より高い値が必要である。」ラプラスの継承の法則のこれらの問題が、ハルデイン、パークス、ジェフリーズらに、他の形式の事前確率を模索する動機を与えた（次の§ ベイズ推論を参照）。ジェインズによれば、^{[ 52 ]}継承の法則の主な問題は、s=0またはs=nの場合には有効ではないということである（その有効性の分析については、継承の法則を参照）。

ベイズ・ラプラス事前確率（ベータ(1,1)）

ベータ分布は、Beta(1,1)、すなわち分布の定義域内のすべての値が等しい密度を持つ一様確率密度において、最大微分エントロピーを達成します。この一様分布Beta(1,1)は、トーマス・ベイズ^{[ 62 ]}によって（「多大な疑念を抱きつつ」）事前確率分布として提案され、正しい事前分布に関する無知を表明しました。この事前分布は、ピエール＝シモン・ラプラスによって（彼の著作から判断すると、ほとんど疑念を抱くことなく^{[ 55 ]}）採用され、20世紀前半の文献では「ベイズ＝ラプラス則」または「逆確率」の「ラプラス則」としても知られています。19世紀後半から20世紀初頭にかけて、科学者たちは、一様で「等しい」確率密度という仮定は、実際の関数（例えば、線形スケールと対数スケールのどちらが最適か）と使用されるパラメータ化に依存することを認識しました。特に、有限サポートを持つ分布の端点付近（例えば、初期サポートがx = 0である分布の場合、x = 0付近）の挙動には特別な注意が必要でした。ケインズ（^[⁵⁷^] Ch.XXX、p.381）は、0と1の間のすべての値が等確率であるというベイズの一様事前確率（Beta(1,1)）の使用を次のように批判しました。「したがって、経験からわかることは、0と1の近傍において、統計的比率が非常に顕著に集まっていること、つまり、0の近傍における正の理論と正の性質間の相関の統計的比率、そして1の近傍における負の理論と負の性質間の相関の統計的比率が顕著に集まっていることです。」

ハルデーンの事前確率（Beta(0,0)）

ベータ(0,0)分布はJBSハルデイン[ ⁶³^{]によって提案され}^、完全な不確実性を表す事前確率はp ⁻¹ (1− p ) ⁻¹に比例するべきであると示唆した。関数p ⁻¹ (1− p ) ^{−1 は}、両方の形状パラメータが 0 に近づくにつれて、ベータ分布の分子の極限と見なすことができます (α、β → 0)。ベータ関数 (ベータ分布の分母) は、両方のパラメータが 0 に近づくにつれて (α、β → 0)、無限大に近づきます。したがって、ベータ関数で割ったp ⁻¹ (1− p ) ^{−1は、α、β → 0 として、両端の 0 と 1 で確率が 1/2 で等しく、中間の確率がない 2 点}ベルヌーイ分布に近づきます。コインを投げるようなものです。コインの片方の面が 0 でもう一方の面が 1 になります。ハルデン事前確率分布 Beta(0,0) は、両端の特異点のために積分 (0 から 1) が 1 に厳密に収束しないため、「不適切な事前分布」です。ただし、サンプルサイズが非常に小さい場合を除き、事後確率を計算する場合はこれが問題になりません。さらに、ゼルナー^{[ 64 ]}は、対数オッズ尺度（ロジット変換）では、ハルデイン事前分布が一様平坦事前分布であることを指摘している。ロジット変換された変数ln( p /1− p )（定義域(−∞,∞)）上の一様事前確率が定義域[0,1]上のハルデイン事前分布と等価であるという事実は、ハロルド・ジェフリーズが著書『確率論』初版（1939年）で指摘した（ ^[⁵⁹^] p.123）。ジェフリーズは次のように書いている。「確かに、ベイズ・ラプラス則を極限まで推し進めると、誰の考え方とも一致しない結果に至ります。（ハルデイン）則dx / ( x (1− x ))は、反対方向に行き過ぎています。この則は、ある特性に関してあるサンプルがあるタイプである場合、母集団全体がそのタイプである確率が1であるという結論に至ります。」「均一」はパラメータ化に依存するという事実から、ジェフリーズは異なるパラメータ化の下で不変となる事前分布の形式を模索することになった。 $\log(p/(1-p))$

ジェフリーズの事前確率（ベルヌーイ分布または二項分布の場合はBeta(1/2,1/2)）

Harold Jeffreys ^{[ 59 ]}^{[ 65 ]}は、再パラメータ化に対して不変であるべき、フィッシャーの情報行列の行列式の平方根に比例する、情報を持たない事前確率尺度の使用を提案した。ベルヌーイ分布の場合、これは次のように示される。確率p ∈ [0, 1] で「表」になり、確率 1 − pで「裏」になるコインの場合、与えられた (H,T) ∈ {(0,1), (1,0)} に対して、確率はp ^H (1 − p ) ^Tである。T = 1 − Hなので、ベルヌーイ分布はp ^H (1 − p ) ^{1 −}^Hである。pを唯一のパラメータとすると、ベルヌーイ分布の対数尤度は次のようになる。

$\ln {\mathcal {L}}(p\mid H)=H\ln p+(1-H)\ln(1-p).$

フィッシャー情報行列には 1 つのコンポーネントしかありません (パラメーターがpのみであるためスカラーです)。したがって、次のようになります。

${\begin{aligned}{\sqrt {{\mathcal {I}}(p)}}&={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{dp}}\ln {\mathcal {L}}(p\mid H)\right)^{2}\right]}}\\[6pt]&={\sqrt {\operatorname {E} \!\left[\left({\frac {H}{p}}-{\frac {1-H}{1-p}}\right)^{2}\right]}}\\[6pt]&={\sqrt {p^{1}(1-p)^{0}\left({\frac {1}{p}}-{\frac {0}{1-p}}\right)^{2}+p^{0}(1-p)^{1}\left({\frac {0}{p}}-{\frac {1}{1-p}}\right)^{2}}}\\&={\frac {1}{\sqrt {p(1-p)}}}.\end{aligned}}$

同様に、n回のベルヌーイ試行を伴う二項分布の場合、

${\sqrt {{\mathcal {I}}(p)}}={\sqrt {\frac {n}{p(1-p)}}}.$

したがって、ベルヌーイ分布、二項分布の場合、ジェフリーズ事前分布はに比例し、これはドメイン変数x = p、形状パラメータ α = β = 1/2 を持つベータ分布、つまり逆正弦分布に比例します。 $\scriptstyle {\frac {1}{\sqrt {p(1-p)}}}$

$\operatorname {Beta} ({\tfrac {1}{2}},{\tfrac {1}{2}})={\frac {1}{\pi {\sqrt {p(1-p)}}}}.$

次のセクションでは、正規化定数が事後確率のベイズの定理で打ち消されるため、ジェフリーズの事前分布の正規化定数は最終結果には無関係であることを示します。したがって、Beta(1/2,1/2) は、ベルヌーイ分布と二項分布の両方のジェフリーズの事前分布として使用されます。次のセクションで示すように、この式をベイズの定理の事前確率と尤度を掛けたものとして使用すると、事後確率はベータ分布になります。ただし、ジェフリーズの事前分布はベルヌーイ分布と二項分布の場合はに比例しますが、ベータ分布の場合はに比例しないことを認識することが重要です。ベータ分布のジェフリーズの事前分布は、ベータ分布のフィッシャー情報量の行列式で与えられます。これは、§ フィッシャー情報行列に示すように、形状パラメータ α と β の三ガンマ関数ψ ₁ の関数であり、次のように表されます。 ${\textstyle {\frac {1}{\sqrt {p(1-p)}}}}$

${\begin{aligned}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&={\sqrt {\psi _{1}(\alpha )\psi _{1}(\beta )-(\psi _{1}(\alpha )+\psi _{1}(\beta ))\psi _{1}(\alpha +\beta )}}\\\lim _{\alpha \to 0}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&=\lim _{\beta \to 0}{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}=\infty \\\lim _{\alpha \to \infty }{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}&=\lim _{\beta \to \infty }{\sqrt {\det({\mathcal {I}}(\alpha ,\beta ))}}=0\end{aligned}}$

前述のように、ベルヌーイ分布と二項分布の Jeffreys 事前分布は、ベルヌーイ分布と二項分布のパラメータpの関数として盆地のように見える1 次元曲線である逆正弦分布Beta(1/2,1/2)に比例します。盆地の壁は、p がp → 0 およびp → 1の端で特異点に近づくことによって形成され、Beta(1/2,1/2) は無限大に近づきます。ベータ分布の Jeffreys 事前分布は、ベータ分布の形状パラメータ α と β の関数として、2 つの壁のみが角 α = β = 0 で交わり、他の 2 つの壁がない、盆地のように見える2 次元表面(3 次元空間に埋め込まれた) です。この 2 次元表面の 2 つの隣接する壁は、形状パラメータ α と β が α、β → 0 で (トリガンマ関数の) 特異点に近づくことで形成されます。α、β → ∞ では壁はありません。これは、この場合、ベータ分布のフィッシャーの情報行列の行列式が 0 に近づくためです。

次のセクションでは、ジェフリーズの事前確率により、ハルデン事前確率とベイズ事前確率の事後確率結果の中間の事後確率 (二項尤度関数を乗算した場合) が得られることが示されます。

ジェフリーズの事前分布は解析的に得るのが難しい場合があり、場合によっては存在しない（非対称三角分布のような単純な分布関数でさえ）。バーガー、ベルナルド、サンは2009年の論文^{[ 66 ]}で、（ジェフリーズの事前分布とは異なり）非対称三角分布に対して存在する参照事前確率分布を定義した。彼らは参照事前分布の閉形式の表現を得ることはできないが、数値計算ではそれが（適切な）事前分布によってほぼ完全に適合することが示されている。

$\operatorname {Beta} ({\tfrac {1}{2}},{\tfrac {1}{2}})\sim {\frac {1}{\sqrt {\theta (1-\theta )}}}$

ここで、 θ はサポート [0, 1] を持つ非対称三角分布の頂点変数です (これは、Wikipedia の三角分布の記事にある次のパラメータ値に対応します: 頂点c = θ、左端a = 0、右端b = 1)。 Berger らはまた、Beta(1/2,1/2) が非対称三角分布の正確な Berger–Bernardo–Sun 参照事前分布である可能性があるという経験的議論も行っています。そのため、Beta(1/2,1/2) はベルヌーイ分布と二項分布の Jeffreys 事前分布であるだけでなく、プロジェクト管理と PERT分析でプロジェクトタスクのコストと期間を説明するために使用される分布である非対称三角分布 (Jeffreys 事前分布は存在しない) の Berger–Bernardo–Sun 参照事前分布でもあると思われます。

クラークとバロン^{[ 67 ]}は、連続正事前分布の中で、ジェフリーズ事前分布（存在する場合）は、サイズnのサンプルとパラメータ間のシャノン相互情報量を漸近的に最大化し、したがってジェフリーズ事前分布は最も情報量の少ない事前分布（シャノン情報量として測定される情報量）であることを証明している。この証明は、 iid乱数に対する確率密度関数間のカルバック・ライブラー距離の検討に基づいている。

異なる事前確率の選択が事後ベータ分布に与える影響

ランダム変数Xの母集団からサンプルを抽出し、n 回のベルヌーイ試行n = s + fでs 回の成功とf回の失敗を得た場合、x = p (以下の式の表記 x = p は、ドメイン x が二項分布のパラメーター p の値を表すことを強調します)を与えられたパラメーターsおよびfの尤度関数は次の二項分布になります。

${\mathcal {L}}(s,f\mid x=p)={s+f \choose s}x^{s}(1-x)^{f}={n \choose s}x^{s}(1-x)^{n-s}.$

事前確率情報に関する信念が、パラメータα Prior とβ Prior を持つベータ分布によって適切に近似される場合、次のようになります。

${\operatorname {PriorProbability} }(x=p;\alpha \operatorname {Prior} ,\beta \operatorname {Prior} )={\frac {x^{\alpha \operatorname {Prior} -1}(1-x)^{\beta \operatorname {Prior} -1}}{\mathrm {B} (\alpha \operatorname {Prior} ,\beta \operatorname {Prior} )}}$

連続事象空間におけるベイズの定理によれば、事後確率密度は、事前確率と尤度関数（証拠sおよびf = n − sが与えられた場合）の積で与えられ、次のように曲線の下の面積が 1 になるように正規化されます。

${\begin{aligned}&{\text{posterior probability density}}(x=p\mid s,n-s)\\[6pt]={}&{\frac {\operatorname {priorprobabilitydensity} (x=p;\alpha \operatorname {prior} ,\beta \operatorname {prior} ){\mathcal {L}}(s,f\mid x=p)}{\int _{0}^{1}{\text{prior probability density}}(x=p;\alpha \operatorname {prior} ,\beta \operatorname {prior} ){\mathcal {L}}(s,f\mid x=p)\,dx}}\\[6pt]={}&{\frac {{n \choose s}x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}/\mathrm {B} (\alpha \operatorname {prior} ,\beta \operatorname {prior} )}{\int _{0}^{1}\left({n \choose s}x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}/\mathrm {B} (\alpha \operatorname {prior} ,\beta \operatorname {prior} )\right)\,dx}}\\[6pt]={}&{\frac {x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}}{\int _{0}^{1}\left(x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}\right)\,dx}}\\[6pt]={}&{\frac {x^{s+\alpha \operatorname {prior} -1}(1-x)^{n-s+\beta \operatorname {prior} -1}}{\mathrm {B} (s+\alpha \operatorname {prior} ,n-s+\beta \operatorname {prior} )}}.\end{aligned}}$

二項係数

${s+f \choose s}={n \choose s}={\frac {(s+f)!}{s!f!}}={\frac {n!}{s!(n-s)!}}$

は事後確率の分子と分母の両方に現れ、積分変数xに依存しないため打ち消され、最終結果には無関係です。同様に、事前確率の正規化係数であるベータ関数 B(αPrior,βPrior) も打ち消され、最終結果には無関係です。正規化されていない事前確率を用いても同じ事後確率が得られます。

$x^{\alpha \operatorname {prior} -1}(1-x)^{\beta \operatorname {prior} -1}$

正規化係数がすべて打ち消されるためです。そのため、正規化定数が打ち消されるため、複数の著者（ジェフリーズ自身を含む）は、正規化されていない事前式を使用しています。事後確率の分子は、事前確率と尤度関数の（正規化されていない）積となり、分母はその積分値（0から1）となります。分母のベータ関数B( s + α Prior, n − s + β Prior)は、事後確率全体が1に積分されることを保証するための正規化定数として現れます。

成功回数と総試行回数の比s / nは二項分布の場合に十分な統計量であり、次の結果に関連します。

ベイズの事前確率（Beta(1,1)）の場合、事後確率は次のようになります。

$\operatorname {posteriorprobability} (p=x\mid s,f)={\frac {x^{s}(1-x)^{n-s}}{\mathrm {B} (s+1,n-s+1)}},{\text{ with mean }}={\frac {s+1}{n+2}},{\text{ (and mode}}={\frac {s}{n}}{\text{ if }}0<s<n).$

ジェフリーズの事前確率（Beta(1/2,1/2)）の場合、事後確率は次のようになります。

$\operatorname {posteriorprobability} (p=x\mid s,f)={x^{s-{\tfrac {1}{2}}}(1-x)^{n-s-{\frac {1}{2}}} \over \mathrm {B} (s+{\tfrac {1}{2}},n-s+{\tfrac {1}{2}})},{\text{ with mean}}={\frac {s+{\tfrac {1}{2}}}{n+1}},{\text{ (and mode}}={\frac {s-{\tfrac {1}{2}}}{n-1}}{\text{ if }}{\tfrac {1}{2}}<s<n-{\tfrac {1}{2}}).$

ハルデン事前確率（Beta(0,0)）の場合、事後確率は次のようになります。

$\operatorname {posteriorprobability} (p=x\mid s,f)={\frac {x^{s-1}(1-x)^{n-s-1}}{\mathrm {B} (s,n-s)}},{\text{ with mean}}={\frac {s}{n}},{\text{ (and mode}}={\frac {s-1}{n-2}}{\text{ if }}1<s<n-1).$

上記の式から、s / n = 1/2の場合、上記3つの事前確率はすべて、事後確率の平均 = 最頻値 = 1/2で同じ位置になります。s / n < 1/2の場合、以下の事前確率を用いた事後確率の平均は、ベイズ事前確率の平均 > ジェフリーズ事前確率の平均 > ハルデン事前確率の平均となります。s / n > 1/2の場合、これらの不等式 の順序は逆転し、ハルデン事前確率が最大の事後平均となります。ハルデン事前確率Beta(0,0)は、平均（「次の」試行における成功確率の期待値）が成功回数と総試行回数の比s / nに等しい事後確率密度となります。したがって、ハルデン事前確率は、次の試行における期待値が最大尤度に等しい事後確率となります。ベイズ事前確率Beta(1,1)は、s / n（最大尤度）の比と同一のモードを持つ事後確率密度をもたらします。

試行の100%が成功した場合（s = n）、ベイズ事前確率Beta(1,1)は、事後期待値が継承則（n + 1）/（n + 2）に等しくなります。一方、ハルデン事前確率Beta(0,0)は、事後期待値が1（次の試行で絶対的に成功する確率）になります。ジェフリーズ事前確率は、事後期待値が（n + 1/2）/（n + 1）に等しくなります。パークス^{[ 61 ]}（303ページ）は次のように指摘している。「これは新しい継続のルールを提供し、取るべき『合理的な』立場を表現している。つまり、n回の成功が途切れることなく続いた後、次の試行の確率は平均的な実行のおよそ半分を終えたという仮定、つまり（2n +2）回の試行に1回の失敗が予想されるという仮定に等しいと仮定する。ベイズ・ラプラス則は、平均的な実行のほぼ終わり、つまり（n + 2）回の試行に1回の失敗が予想されることを示唆している。この比較は、『合理性』の観点から、明らかに新しい結果（現在ジェフリーズ事前分布と呼ばれているもの）に有利である。」

逆に、試行の100%が失敗に終わった場合（s = 0）、ベイズ事前確率Beta(1,1)は次の試行における成功の事後期待値が1/( n + 2)に等しくなるのに対し、ハルデン事前確率Beta(0,0)は次の試行における成功の事後期待値が0（次の試行で絶対的に失敗する確実性）になる。ジェフリーズ事前確率は次の試行における成功の事後期待値が(1/2)/( n + 1)に等しくなるが、パークス^{[ 61 ]} （p.303）はこれを「ベイズ・ラプラスの結果1/( n + 2)よりもはるかに合理的に遠い結果である」と指摘している。

Jaynes ^{[ 52 ]}は、（一様事前分布Beta(1,1)について） s = 0またはs = nの場合のこれらの式の使用について疑問を呈している。なぜなら、積分が収束しないからである（Beta(1,1)はs = 0またはs = nの場合に不適切な事前分布である）。実際には、ベイズ事前分布の両端の間にモードが存在するために必要な条件0<s<nは通常満たされており、したがってベイズ事前分布（0 < s < nである限り）は、領域の両端の間に位置する事後モードをもたらす。

継承の法則のセクションで述べたように、K. ピアソンは、n回の試行でn回成功した後、次の ( n + 1 ) 回の試行がすべて成功する事後確率（ベイズBeta(1,1)分布を事前確率として用いる場合）は、 n の値に関わらず、正確に1/2であることを示した。ハルデンBeta(0,0)分布を事前確率として用いる場合、この事後確率は1（n回の試行でn回成功した後、次の ( n + 1 ) 回の試行がすべて成功するという絶対的な確実性）である。 Perks ^[⁶¹^] (p.303)は、現在Jeffreys事前分布として知られているものについて、この確率は(( n +1/2)/( n +1))(( n +3/2)/( n +2))...(2n + 1/2)/( 2n +1)となり、n =1、2、3に対して15/24、315/480、9009/13440となり、nが無限大に近づくにつれて急速に限界値に近づくことを示しています。パークスは、現在ジェフリーズ事前分布として知られているものが、「ベイズ・ラプラスの結果や、ジェフリーズが否定した（ハルデン）代替則（確率として確実性を与える）の結果よりも明らかに『合理的』である」と述べている。これは明らかに帰納法の過程と非常によく対応している。それが目的にとって『絶対的に』合理的であるかどうか、つまり、1に達するという不合理性がなく、かつ十分な大きさであるかどうかは、他者が判断すべき問題である。しかし、その結果は、サンプリング実験前の完全な無関心と知識の欠如という仮定に依存していることを認識する必要がある。 $1/{\sqrt {2}}=0.70710678\ldots$

以下は、これら 3 つの事前確率分布で得られた事後分布の分散です。

ベイズの事前確率（Beta(1,1)）の場合、事後分散は次のようになります。

${\text{variance}}={\frac {(n-s+1)(s+1)}{(3+n)(2+n)^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in variance}}={\frac {1}{12+4n}}$

ジェフリーズの事前確率（Beta(1/2,1/2)）の場合、事後分散は次のようになります。

${\text{variance}}={\frac {(n-s+{\frac {1}{2}})(s+{\frac {1}{2}})}{(2+n)(1+n)^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in var}}={\frac {1}{8+4n}}$

ハルデン事前確率（Beta(0,0)）の場合、事後分散は次のようになる。

${\text{variance}}={\frac {(n-s)s}{(1+n)n^{2}}},{\text{ which for }}s={\frac {n}{2}}{\text{ results in variance}}={\frac {1}{4+4n}}$

したがって、Silvey ^{[ 50 ]}が指摘したように、 nが大きい場合、分散は小さく、したがって事後分布は非常に集中しているのに対し、想定された事前分布は非常に拡散しています。これは、漠然とした事前知識が（ベイズの定理により）有益な実験によってより正確な事後知識に変換されるため、期待される結果と一致しています。n が小さい場合、ハルデン事前分布 Beta(0,0) は事後分散が最大になり、ベイズ事前分布 Beta(1,1) はより集中した事後分散になります。ジェフリーズ事前分布 Beta(1/2,1/2) は、他の 2 つの中間の事後分散になります。n が増加するにつれて、分散は急速に減少し、3 つの事前分布すべての事後分散がほぼ同じ値に収束します（n → ∞ で分散がゼロに近づきます）。ハルデン事前確率Beta(0,0)は、平均（「次の」試行における成功確率の期待値）が成功回数と総試行回数の比s/nと同一である事後確率密度をもたらすという前の結果を思い出すと、上記の式から、ハルデン事前確率Beta(0,0)も、最大尤度推定s/nとサンプルサイズ（§ 分散）で表される分散と同一の事後確率密度をもたらすことがわかります。

${\text{variance}}={\frac {\mu (1-\mu )}{1+\nu }}={\frac {(n-s)s}{(1+n)n^{2}}}$

平均μ = s / n、サンプルサイズ ν = nです。

ベイズ推論において、二項分布に事前分布Beta( αPrior , βPrior )を用いることは、観測された成功と失敗の実際の数に「成功」の疑似観測値(αPrior − 1)と「失敗」の疑似観測値( βPrior − 1)を加算し、実際の観測値と疑似観測値の両方における成功の割合で二項分布のパラメータpを推定することと等価である。一様事前分布Beta(1,1)は、Beta(1,1)では(αPrior − 1) = 0かつ(βPrior − 1) = 0となるため、疑似観測値を加算(または減算)しない。Haldane事前分布Beta ( 0,0)はそれぞれ1つの疑似観測値を減算し、Jeffreys事前分布Beta(1/2,1/2)は成功の疑似観測値(1/2)と同数の失敗を減算する。この減算は事後分布を平滑化する効果があります。成功率が50%でない場合（s / n ≠ 1/2）、α Priorとβ Priorの値が1未満（したがって、( α Prior − 1)と( β Prior − 1)が負）の場合、スパース性、つまりパラメータpが0または1に近づく分布が有利になります。実際には、α Priorとβ Priorの値が0から1の間であれば、それらが一緒に作用して集中パラメータとして機能します。

添付のプロットは、サンプルサイズn ∈ {3,10,50}、成功s ∈ { n /2, n /4}、Beta( α Prior, β Prior) ∈ {Beta(0,0),Beta(1/2,1/2),Beta(1,1)} の事後確率密度関数を示しています。また、n = {4,12,40}、成功s = { n /4}、Beta( α Prior, β Prior) ∈ {Beta(0,0),Beta(1/2,1/2),Beta(1,1)} の場合も示されています。最初のプロットは、成功s ∈ {n/2}、平均 = モード = 1/2 の対称的なケースを示しており、2 番目のプロットは、 s ∈ { n /4} の歪んだケースを示しています。これらの画像は、サンプルサイズが50の場合、事後分布において事前分布間にほとんど差がないことを示しています（p = 1/2付近でより顕著なピークが見られます）。非常に小さなサンプルサイズでは、有意差が見られます（特に、サンプルサイズが3の退化したケースでは、分布がより平坦になります）。したがって、成功率s = { n /4}の歪んだケースでは、小さなサンプルサイズにおいて、対称的なケースよりも事前分布の選択による影響が大きいことがわかります。対称分布の場合、ベイズ事前分布Beta(1,1)は最もピークが高く、事後分布が最も高い分布となり、ハルデン事前分布Beta(0,0)は最も平坦でピークが最も低い分布となります。ジェフリーズ事前分布Beta(1/2,1/2)はそれらの中間に位置します。ほぼ対称で、それほど歪んでいない分布の場合、事前分布の影響は同様です。サンプルサイズが非常に小さい場合 (この場合はサンプルサイズが 3) および分布が歪んでいる場合 (この例ではs ∈ { n /4})、ハルデイン事前分布は、左端に特異点を持つ逆 J 字型の分布になる可能性があります。ただし、これは退化した場合にのみ発生します (この例ではn = 3 なのでs = 3/4 < 1 となり、ハルデイン事前分布の事後分布のモードが両端の間に位置するためには s が 1 より大きくなければならないため退化した値となり、s = 3/4 は整数でないため尤度に対する二項分布の初期仮定に違反します)。また、これはサンプルサイズが妥当な一般的な場合 (両端の間にモードが存在するために必要な条件 1 < s < n − 1 が満たされる場合) には問題になりません。

^{ジェインズ[ 52 ]}は著書の第12章（385ページ）で、ハルデン事前分布Beta(0,0)は完全な無知の事前知識状態を表し、実験が成功か失敗のどちらをもたらすかが物理的に可能かどうかさえわからないが、ベイズ（一様）事前分布Beta(1,1)は2つの結果の両方が可能であるとわかっている場合に適用されると主張している。ジェインズは次のように述べている。「ベイズ・ラプラス事前分布（Beta(1,1)）は完全な無知の状態を表すのではなく、1つの成功と1つの失敗を観察した知識状態を表すと解釈する…少なくとも1つの成功と1つの失敗が分かれば、実験は物理的可能性という意味で真の2値実験であるとわかる。」ジェインズ^{[ 52 ]}はジェフリーズの事前分布Beta(1/2,1/2)については特に論じていない（ジェインズの著書^{[ 52 ]}の181ページ、423ページ、第12章での「ジェフリーズの事前分布」についてのジェインズの論じは、代わりにジェフリーズが1939年版の著書[59]で導入した不適切で正規化されていない事前分布「1/pdp」について^言及^し^ている。これはジェフリーズが現在ジェフリーズの不変事前分布として知られるもの、すなわちフィッシャーの情報行列の行列式の平方根を導入する7年前のことである。「1/p」はジェフリーズ（1946）の指数分布に対する不変事前分布であり、ベルヌーイ分布や二項分布に対するものではない）。しかし、上記の議論から、ジェフリーズベータ(1/2,1/2)事前分布はハルデンベータ(0,0)事前分布とベイズベータ(1,1)事前分布の中間の知識状態を表すことがわかります。

同様に、カール・ピアソンは1892年の著書『科学の文法』^{[ 68 ]}^{[ 69 ]}（1900年版144ページ）の中で、ベイズ（ベータ(1,1)）一様事前分布は完全な無知事前分布ではなく、事前情報によって「無知を均等に分配する」ことが正当化される場合にのみ使用すべきであると主張した。ピアソンは次のように書いている。「しかし、我々が立てたと思われる唯一の仮定は、自然について何も知らない以上、ルーティンとアノミー（ギリシャ語のανομία、つまり「なし」と「法則」に由来）は、等しく起こりうると考えるべきだ、というものである。しかし、この仮定を立てることさえ、実際には正当化されていなかった。なぜなら、それは自然に関して我々が持っていない知識を伴うからである。我々は、コインの構造と挙動に関する一般的な経験を用いて、表と裏の確率は等しいと主張するが、自然について何も知らない以上、ルーティンが等しく起こりうると経験に基づいて主張する権利はない。規範と違反は、どちらも等しく起こりうる。無知な我々は、経験に先立って、自然はあらゆるルーティン、あらゆるアノミー（無規範性）、あるいはその両者のあらゆる割合の混合から成り立つ可能性があり、そしてそれらはすべて等しく起こりうることを考慮すべきである。経験後のこれらの構成のうちどれが最も起こりうるかは、明らかにその経験がどのようなものであったかによって決まる。

十分なサンプリングデータがあり、事後確率モードが領域の両端（x = 0またはx = 1）に位置していない場合、ベイズ（Beta(1,1)）、ジェフリーズ（Beta(1/2,1/2)）、ハルデン（Beta(0,0)）の3つの事前分布は、同様の事後確率密度を生成するはずである。そうでない場合、Gelmanら^{[ 70 ]}（p.65）が指摘するように、「利用可能なデータが非常に少なく、非情報事前分布の選択が違いを生む場合、事前分布に関連情報を入れるべきである」、あるいはBerger ^{[ 4 ]}（p.125）が指摘するように、「異なる合理的な事前分布が実質的に異なる答えを生み出す場合、単一の答えがあると述べるのは正しいだろうか？結論が事前の信念に依存する科学的不確実性があることを認める方が良いのではないか？」。

発生と応用

順序統計

ベータ分布は順序統計理論において重要な応用を持っています。基本的な結果は、連続一様分布から得られたn個の標本のうちk番目に小さいものの分布はベータ分布に従うということです。^[⁴⁰^]この結果は次のように要約されます

$U_{(k)}\sim \operatorname {Beta} (k,n+1-k).$

このことから、そして確率積分変換に関連する理論を応用することで、任意の連続分布から任意の個々の順序統計量の分布を導くことができる。^{[ 40 ]}

主観論理

標準的な論理では、命題は真か偽かのどちらかであるとみなされます。対照的に、主観論理では、人間は現実世界に関する命題が絶対的に真か偽かを絶対的に確実に判断することはできないと仮定します。主観論理では、2値事象の事後確率推定値はベータ分布で表すことができます。^{[ 71 ]}

ウェーブレット解析

ウェーブレットは、振幅がゼロから始まり、増加し、その後ゼロに戻る波のような振動です。通常、すぐに減衰する「短い振動」として視覚化できます。ウェーブレットは、音声信号や画像など、さまざまな種類のデータから情報を抽出するために使用できます。したがって、ウェーブレットは、信号処理に役立つ特定の特性を持つように意図的に作成されています。ウェーブレットは時間と周波数の両方で局在化しますが、標準的なフーリエ変換は周波数のみで局在化します。したがって、標準的なフーリエ変換は定常プロセスにのみ適用できますが、ウェーブレットは非定常プロセスに適用できます。連続ウェーブレットはベータ分布に基づいて構築できます。ベータウェーブレット^[⁷²^]は、2つの形状パラメータαとβによって形状が微調整されるハールウェーブレットのソフトな変種と見なすことができます

集団遺伝学

ボールディング・ニコルズモデルは、集団遺伝学で使用されるベータ分布の2パラメータ化です。^[⁷³^]これは、細分化された集団の構成要素における対立遺伝子頻度の統計的記述です

${\begin{aligned}\alpha &=\mu \nu ,\\\beta &=(1-\mu )\nu ,\end{aligned}}$ ここで、Fは2 つの集団間の (ライトの) 遺伝距離です。 $\nu =\alpha +\beta ={\frac {1-F}{F}}$ $0<F<1$

プロジェクト管理：タスクコストとスケジュールのモデリング

ベータ分布は、最小値と最大値で定義された区間内で発生するように制約された事象をモデル化するために使用できます。このため、ベータ分布は三角分布とともに、 PERT、クリティカルパス法（CPM）、共同費用スケジュールモデリング（JCSM）、その他のプロジェクト管理／制御システムにおいて、タスクの完了までの時間とコストを記述するために広く使用されています。プロジェクト管理においては、ベータ分布の平均と標準偏差を推定するために、簡略化された計算が広く用いられています。 ^{[ 39 ]}

${\begin{aligned}\mu (X)&={\frac {a+4b+c}{6}}\\[8pt]\sigma (X)&={\frac {c-a}{6}}\end{aligned}}$

ここで、 aは最小値、cは最大値、bは最も可能性の高い値 ( α > 1 およびβ > 1の場合のモード) です。

上記の平均値の推定値はPERT 3 点推定値として知られており、次のβの値のいずれに対しても正確です(これらの範囲内の任意の α に対して)。 $\mu (X)={\frac {a+4b+c}{6}}$

β = α > 1 (対称ケース) 、標準偏差、歪度= 0、過剰尖度=

\sigma (X)={\frac {c-a}{2{\sqrt {1+2\alpha }}}}

{\frac {-6}{3+2\alpha }}

または

β = 6 − α（5 > α > 1（歪んだケース）の場合）、標準偏差

$\sigma (X)={\frac {(c-a){\sqrt {\alpha (6-\alpha )}}}{6{\sqrt {7}}}},$

歪度、過剰尖度 ${}={\frac {(3-\alpha ){\sqrt {7}}}{2{\sqrt {\alpha (6-\alpha )}}}}$ ${}={\frac {21}{\alpha (6-\alpha )}}-3$

上記の標準偏差の推定値σ ( X )=( c − a )/6は、 αとβが以下のいずれの値であっても正確です。

α = β = 4（対称）、歪度= 0、過剰尖度= −6/11。

β = 6 − αかつ（右側、正の歪度）、歪度、過剰尖度= 0

\alpha =3-{\sqrt {2}}

{}={\frac {1}{\sqrt {2}}}

β = 6 − αかつ（左側、負の歪度）、歪度、過剰尖度= 0

\alpha =3+{\sqrt {2}}

{}={\frac {-1}{\sqrt {2}}}

そうでなければ、αとβの他の値を持つベータ分布の近似値としては不十分であり、平均で40%、分散で549%の平均誤差を示す。^{[ 74 ]}^{[ 75 ]}^{[ 76 ]}

ランダム変量生成

XとYが独立で、かつ $X\sim \Gamma (\alpha ,\theta )$ $Y\sim \Gamma (\beta ,\theta )$

${\frac {X}{X+Y}}\sim \mathrm {B} (\alpha ,\beta ).$

したがって、ベータ変量を生成するアルゴリズムの1つは、Xがパラメータ(α, 1)を持つガンマ変量であり、Yがパラメータ(β, 1)を持つ独立ガンマ変量であるときに、を生成することです。^[⁷⁷^] 実際、ここでとが独立しており、です。とがおよびから独立している場合、とはから独立しています。これは、独立変数とランダム変数の積がランダム変数であることを示しています。 ${\frac {X}{X+Y}}$ ${\frac {X}{X+Y}}$ $X+Y$ $X+Y\sim \Gamma (\alpha +\beta ,\theta )$ $Z\sim \Gamma (\gamma ,\theta )$ $Z$ $X$ $Y$ ${\frac {X+Y}{X+Y+Z}}\sim \mathrm {B} (\alpha +\beta ,\gamma )$ ${\frac {X+Y}{X+Y+Z}}$ ${\frac {X}{X+Y}}$ $\mathrm {B} (\alpha ,\beta )$ $\mathrm {B} (\alpha +\beta ,\gamma )$ $\mathrm {B} (\alpha ,\beta +\gamma )$

また、n個の一様分布変量のk次の順序統計量はなので、 αとβが小さな整数の場合の代替案は、α + β − 1個の一様変量を生成し、αから数えて1番目に小さいものを選択することである。^[⁴⁰^] $\mathrm {B} (k,n+1-k)$

ベータ分布を生成するもう一つの方法は、ポリア壷モデルです。この方法では、α個の「黒」ボールとβ個の「白」ボールが入った「壷」から始め、一様に復元抽出を行います。試行ごとに、最後に抽出したボールの色に応じてボールが1つ追加されます。漸近的に、黒と白のボールの割合はベータ分布に従って分布し、実験を繰り返すたびに異なる値が生成されます。

逆変換サンプリングを使用することもできます。

ベータ分布の正規近似

α ~ β かつαとβ >> 1のベータ分布は、平均1/2、分散1/(4(2 α + 1))の正規分布に近似する。α ≥ βの場合、正規分布の近似値は、αの逆数の対数の立方根を取ることで改善できる^[⁷⁸^]^[⁷⁹^] $\mathrm {B} (\alpha ,\beta )$ $\mathrm {B} (\alpha ,\beta )$

歴史

トーマス・ベイズは、1763年にリチャード・プライスによって出版された死後論文^{[ 62 ]}の中で、ベルヌーイ試行における成功確率の密度としてベータ分布を得ました（§応用、ベイズ推論を参照）。しかし、この論文ではベータ分布のモーメントの分析やその特性の議論は行われていません

ベータ分布に関する最初の体系的な現代的議論は、おそらくカール・ピアソンによるものである。^{[ 80 ]}^{[ 81 ]}ピアソンの論文^{[ 21 ]}^{[ 33 ]}では、ベータ分布は微分方程式の解として表現されている。この方程式はピアソンのタイプI分布であり、任意のシフトと再スケーリングを除けば本質的にはピアソンのタイプI分布と同一である（ベータ分布とピアソンのタイプI分布は、適切なパラメータの選択によって常に等しくなる）。実際、第二次世界大戦前の数十年間のいくつかの英語の書籍や雑誌記事では、ベータ分布をピアソンのタイプI分布と呼ぶのが一般的であった。ウィリアム・P・エルダートンは、 1906年のモノグラフ「頻度曲線と相関」^{[ 42 ]}の中で、ベータ分布をピアソンのタイプI分布としてさらに分析し、4パラメータの場合のモーメント法の詳細な議論、U字型、J字型、ねじれたJ字型、「三角帽子型」、水平および斜めの直線の場合の図（エルダートンはこれを「三角帽子型」と表現している）などを掲載している。エルダートンは「私は主にピアソン教授に恩義を感じていますが、その恩義は公式に感謝の意を表すことが不可能なほどのものです」と記している。エルダートンは1906年のモノグラフ^{[ 42 ]}の中で、ベータ分布に関する膨大な情報を提供しており、最頻値として選択された分布の起源式や、タイプIからタイプVIIまでの他のピアソン分布に関する式も提供している。エルダートンはまた、ベータ関数とガンマ関数に関する付録（「II」）を含む多数の付録も掲載している。後の版では、エルダートンは平均として選択された分布の起源に関する方程式と、ピアソン分布 VIII から XII の分析を追加しました。

^{ボウマンとシェントン[ 44 ]}は、「フィッシャーとピアソンは（パラメータ）推定のアプローチ、特にベータ分布の場合の（ピアソンの）モーメント法と（フィッシャーの）最大尤度法に関して意見の相違があった」と述べている。また、ボウマンとシェントンによれば、「タイプI（ベータ分布）モデルが論争の中心となったのは、全くの偶然だった。4つのパラメータを持つ、これより難しいモデルを見つけるのは難しかっただろう」という。フィッシャーとカール・ピアソンの長年にわたる公的な対立は、権威ある雑誌に掲載された多くの論文で追うことができる。例えば、ベータ分布の4つのパラメータの推定、そしてフィッシャーによるピアソンのモーメント法の恣意性に関する批判については、ピアソンの論文「モーメント法と最尤法」^{[ 45 ]}（ロンドン大学ユニバーシティ・カレッジを退職して3年後に発表。ユニバーシティ・カレッジの職はフィッシャーとピアソンの息子エゴンが分担していた）を参照のこと。ピアソンは次のように記している。「私は（コシャイの1933年王立統計学会誌掲載論文を）読んだが、これは私の知る限り、現在出版されているフィッシャー教授の手法の適用例の中で唯一のものである。驚いたことに、その手法は、まず（ピアソン）モーメント法によって頻度曲線の定数を求め、次にフィッシャーが「最尤法」と呼ぶものによって更なる近似値を重ね合わせることで、曲線定数の『より効率的な値』を得るという彼の主張に基づいている。」

統計学の歴史に関するデイヴィッドとエドワーズによる論文^{[ 82 ]}では、ベータ分布に関する最初の現代的な扱いについて1911年^{[ 83 ]}に言及しており、ジニ係数を考案したイタリアの統計学者、人口統計学者、社会学者であるコラード・ジニによって標準となったベータの呼称が使われている。N.L .ジョンソンとS.コッツは、統計科学における主要な歴史上の人物に関する包括的で非常に情報量の多いモノグラフ^[⁸⁴^]の中で、コラード・ジニ^[⁸⁵^] を「初期のベータ分布のパラメータを導き出す問題を、いわゆる経験的ベイズ法の出現を予見する手法を取り上げて扱った初期のベイズ主義者」と評価している。

参考文献

^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u ^v ^w ^x ^yジョンソン、ノーマン・L.; コッツ、サミュエル; バラクリシュナン、N. (1995). 「第25章ベータ分布」.連続一変量分布第2巻（第2版）. Wiley. ISBN 978-0-471-58494-0。
^ ^a ^bコリン・ローズ、マレー・D・スミス (2002). MATHEMATICAによる数理統計. Springer. ISBN 978-0387952345。
^ ^a ^b ^c Kruschke, John K. (2011).ベイズ統計解析の実践：RとBUGSを使ったチュートリアル. Academic Press / Elsevier. p. 83. ISBN 978-0123814852。
^ ^a ^bバーガー、ジェームズ・O. (2010).統計的意思決定理論とベイズ分析（第2版）. シュプリンガー. ISBN 978-1441930743。
^ ^a ^b ^cウィリアム・フェラー (1971).確率論とその応用入門第2巻. Wiley. ISBN 978-0471257097。
^ワズワース、GP（1960年）『確率と確率変数入門』ニューヨーク：マグロウヒル、 52ページ
^ Kruschke, John K. (2015). 『ベイズ統計データ分析の実践：R、JAGS、Stanを使ったチュートリアル』Academic Press / Elsevier. ISBN 978-0-12-405888-0。
^ ^a ^bワズワース、ジョージ・P.、ジョセフ・ブライアン (1960)。確率と確率変数入門。マグロウヒル
^ ^a ^b ^c ^d ^e ^f ^gグプタ、アルジュン・K.編 (2004).ベータ分布とその応用ハンドブック. CRC Press. ISBN 978-0824753962。
^ ^a ^b Kerman, Jouni (2011). 「ベータ分布の中央値の閉形式近似」arXiv : 1111.0433 [ math.ST ]
^ Mosteller, Frederick、John Tukey (1977). 『データ分析と回帰：統計学第2講座』Addison-Wesley Pub. Co. Bibcode : 1977dars.book.....M . ISBN 978-0201048544。
^ウィリアム・フェラー（1968年）『確率論とその応用入門』第1巻（第3版）ワイリー社ISBN 978-0471257080。
^フィリップ・J・フレミング、ジョン・J・ウォレス「統計で嘘をつかない方法：ベンチマーク結果を正しく要約する方法」Communications of the ACM、29(3):218–221、1986年3月。
^ 「NIST/SEMATECH 統計手法の電子ハンドブック 1.3.6.6.17. ベータ分布」国立標準技術研究所情報技術研究所2012年4月. 2016年5月31日閲覧。
^ Oguamanam, DCD; Martin, HR; Huissoon, JP (1995). 「ベータ分布のギア損傷解析への応用について」.応用音響. 45 (3): 247– 261. doi : 10.1016/0003-682X(95)00001-P .
^ Zhiqiang Liang; Jianming Wei; Junyu Zhao; Haitao Liu; Baoqing Li; Jie Shen; Chunlei Zheng (2008年8月27日). 「尖度の統計的意味と地震信号に基づく人物識別への新たな応用」 . Sensors . 8 (8): 5106– 5119. Bibcode : 2008Senso...8.5106L . doi : 10.3390/s8085106 . PMC 3705491. PMID 27873804 .
^ Kenney, JF, および E.S. Keeping (1951). 『統計数学パート2』第2版. D. Van Nostrand Company Inc.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ ^a ^b ^c ^dアブラモウィッツ、ミルトン、アイリーン・A・ステガン (1965).数式、グラフ、表付き数学関数ハンドブック. ドーバー. ISBN 978-0-486-61272-0。
^ Weisstein, Eric W. 「Kurtosis」 . MathWorld - Wolfram Web Resource . 2012年8月13日閲覧
^ ^a ^bパニック、マイケル・J (2005). 『初等的視点からの高度統計学』アカデミック・プレス. ISBN 978-0120884940。
^ ^a ^b ^c ^d ^e ^fピアソン、カール(1916). 「進化論への数学的貢献 XIX：歪度変動に関する回想録第2補遺」 .王立協会哲学論文集 A. 216 ( 538–548 ) : 429–457 .書誌コード: 1916RSPTA.216..429P . doi : 10.1098/rsta.1916.0009 . JSTOR 91092
^グラドシュテイン、イズライル・ソロモノヴィッチ;ヨシフ・モシェヴィッチ・リジク;ジェロニムス、ユーリ・ヴェニアミノヴィッチ;ツェイトリン、ミハイル・ユリエヴィッチ;ジェフリー、アラン (2015) [2014 年 10 月]。ツウィリンガー、ダニエル。モル、ヴィクトル・ユーゴー（編）。インテグラル、シリーズ、および製品の表。 Scripta Technica, Inc. による翻訳 (第 8 版)。Academic Press, Inc. ISBN 978-0-12-384933-5 LCCN 2014010276
^ビリングスリー、パトリック (1995) . 「第30章モーメント法」.確率と測度（第3版）. Wiley-Interscience. ISBN 978-0-471-00710-4。
^ ^a ^b MacKay, David (2003).情報理論、推論、学習アルゴリズム. Cambridge University Press; 初版.書誌コード: 2003itil.book.....M . ISBN 978-0521642989。
^ ^a ^b Johnson, NL (1949). 「並進法によって生成された頻度曲線のシステム」(PDF) . Biometrika . 36 ( 1–2 ): 149–176 . doi : 10.1093/biomet/36.1-2.149 . hdl : 10338.dmlcz/ 135506 . PMID 18132090
^ Verdugo Lazo, ACG; Rathie, PN (1978). 「連続確率分布のエントロピーについて」IEEE Trans. Inf. Theory . 24 (1): 120– 122. doi : 10.1109/TIT.1978.1055832 .
^シャノン、クロード・E. (1948). 「通信の数学的理論」.ベルシステム技術ジャーナル. 27 (4): 623– 656. doi : 10.1002/j.1538-7305.1948.tb01338.x .
^ ^a ^b ^c Cover, Thomas M. and Joy A. Thomas (2006). 『情報理論の要素第2版』（Wileyシリーズ電気通信と信号処理） . Wiley-Interscience; 第2版. ISBN 978-0471241959。
^プランケット、キム、ジェフリー・エルマン (1997)。『生得性の再考：コネクショニストシミュレーションのためのハンドブック（ニューラルネットワークモデリングとコネクショニズム）』ブラッドフォードブック、166ページ。ISBN 978-0262661058。{{cite book}}: CS1 maint: multiple names: authors list (link)
^ナラパティ、ラメシュ (2006).平滑化ディリクレ分布：情報検索におけるクロスエントロピーランキングの理解（論文）. マサチューセッツ大学アマースト校コンピュータサイエンス学部
^ ^a ^bピアソン、エゴン・S.（1969年7月）。「頻度曲線の利用の発展を通して辿る歴史的考察」 THEMIS統計分析研究プログラム、技術報告書38。海軍研究局、契約番号N000014-68-A-0515（プロジェクトNR 042–260）。
^ Hahn, Gerald J.; Shapiro, S. (1994). Statistical Models in Engineering (Wiley Classics Library) . Wiley-Interscience. ISBN 978-0471040651。
^ ^a ^bピアソン、カール(1895). 「進化の数学的理論への貢献 II：均質物質における歪んだ変化」 .王立協会哲学論文集. 186 : 343–414 .書誌コード: 1895RSPTA.186..343P . doi : 10.1098/rsta.1895.0010 . JSTOR 90649
^ Buchanan, K.; Rockway, J.; Sternberg, O.; Mai, NN (2016年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための和差ビームフォーミング」 . 2016 IEEE Radar Conference (RadarConf) . pp. 1– 5. doi : 10.1109/RADAR.2016.7485289 . ISBN 978-1-5090-0863-6. S2CID 32525626 .
^ Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (2017年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための送信ビームフォーミング」. 2017 IEEE Radar Conference (RadarConf) . pp. 0112– 0117. doi : 10.1109/RADAR.2017.7944181 . ISBN 978-1-4673-8823-8. S2CID 38429370 .
^ Ryan, Buchanan, Kristopher (2014-05-29). 「非周期的（ランダム）フェーズドアレイの理論と応用」{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Pham-Gia, T. (2000年1月). 「独立ベータ変数の比率の分布とその応用」 . Communications in Statistics - Theory and Methods . 29 (12): 2693– 2715. doi : 10.1080/03610920008832632 . ISSN 0361-0926 . 2024年11月13日閲覧.
^エレリアス・ベラスコ、ホセ・マヌエル、エレリアス・プレゲスエロ、ラファエル、ルネ・ファン・ドルプ、ヨハン。（2011年）。 PERT 平均と分散を再検討します。 European Journal of Operational Research (210)、p. 448–451。
^ ^a ^b Malcolm, DG; Roseboom, JH; Clark, CE; Fazar, W. (1958年9月～10月). 「研究開発プログラム評価への手法の応用」.オペレーションズ・リサーチ. 7 (5): 646– 669. doi : 10.1287/opre.7.5.646 . ISSN 0030-364X .
^ ^a ^b ^c ^d David、HA、Nagaraja、HN (2003)注文統計(第 3 版)。ニュージャージー州ワイリー、458 ページ。ISBN 0-471-38926-9
^ 「1.3.6.6.17. ベータ版配布」www.itl.nist.gov
^ ^a ^b ^c ^d ^e ^f ^g ^hエルダートン、ウィリアム・ペイリン (1906).頻度曲線と相関関係チャールズ・アンド・エドウィン・レイトン (ロンドン).
^エルダートン、ウィリアム・ペイリン、ノーマン・ロイド・ジョンソン (2009). 『度数曲線の体系』ケンブリッジ大学出版局. ISBN 978-0521093361。
^ ^a ^b ^c Bowman, KO ; Shenton, LR (2007). 「ベータ分布、モーメント法、Karl PearsonとRA Fisher」(PDF) . Far East J. Theo. Stat . 23 (2): 133– 164
^ ^a ^bピアソン, カール (1936年6月). 「モーメント法と最大尤度法」. Biometrika . 28 (1/2): 34– 59. doi : 10.2307/2334123 . JSTOR 2334123 .
^ ^a ^b ^c Joanes, DN; CA Gill (1998). 「標本の歪度と尖度の指標の比較」. The Statistician . 47 (Part 1): 183– 189. doi : 10.1111/1467-9884.00122 .
^ Beckman, RJ; GL Tietjen (1978). 「ベータ分布の最大尤度推定」. Journal of Statistical Computation and Simulation . 7 ( 3–4 ): 253– 258. doi : 10.1080/00949657808810232 .
^ Gnanadesikan, R., Pinkham and Hughes (1967). 「最小順序統計量によるベータ分布パラメータの最大尤度推定」. Technometrics . 9 (4): 607– 620. doi : 10.2307/1266199 . JSTOR 1266199 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Fackler, Paul. 「逆ディガンマ関数（Matlab）」ハーバード大学工学応用科学部. 2012年8月18日閲覧。
^ ^a ^b ^cシルベイ, SD (1975).統計的推論. チャップマンとハル. p. 40. ISBN 978-0412138201。
^ Edwards, AWF (1992).尤度. ジョンズ・ホプキンス大学出版局. ISBN 978-0801844430。
^ ^a ^b ^c ^d ^e ^f Jaynes, ET (2003).確率論、科学の論理. Cambridge University Press. ISBN 978-0521592710。
^コスタ、マックス、カバー、トーマス（1983年9月）。エントロピー・パワー不等式とブルン・ミンコフスキー不等式の類似性について（PDF）。スタンフォード大学統計学部、技術レポート48{{cite book}}: CS1 maint: multiple names: authors list (link)
^ ^a ^b ^c Aryal, Gokarna; Saralees Nadarajah (2004). 「ベータ分布の情報行列」(PDF) . Serdica Mathematical Journal (ブルガリア科学アカデミー) . 30 : 513– 526.
^ ^a ^bラプラス、ピエール・シモン、侯爵（1902年）。確率に関する哲学的エッセイ。ニューヨーク：J. Wiley、ロンドン：Chapman & Hall。ISBN 978-1-60206-328-0。{{cite book}}: ISBN / Date incompatibility (help)CS1 maint: multiple names: authors list (link)
^コックス、リチャード・T. (1961).確率推論の代数. ジョンズ・ホプキンス大学出版局. ISBN 978-0801869822。{{cite book}}: ISBN / Date incompatibility (help)
^ ^a ^bケインズ、ジョン・メイナード (2010) [1921]. 『確率論：哲学と科学史のつながり』ワイルドサイド・プレス. ISBN 978-1434406965。
^ピアソン、カール (1907).「過去の経験が未来への期待に与える影響について」.哲学雑誌. 6 (13): 365–378
^ ^a ^b ^c ^dジェフリーズ、ハロルド（1998年）『確率論』オックスフォード大学出版局、第3版。ISBN 978-0198503682。
^ Broad, CD (1918年10月). 「帰納法と確率の関係について」. MIND, 心理学と哲学の季刊誌. 27 (新シリーズ) (108): 389– 404. doi : 10.1093/mind/XXVII.4.389 . JSTOR 2249035 .
^ ^a ^b ^c ^dパークス, ウィルフレッド (1947年1月). 「逆確率に関するいくつかの考察（新たな無差別則を含む）」 .アクチュアリー協会誌. 73 (2): 285– 334. doi : 10.1017/S0020268100012270 . 2014年1月12日時点のオリジナルよりアーカイブ。 2012年9月19日閲覧。
^ ^a ^bベイズ、トーマス; リチャード・プライス (1763) による伝達。「偶然性の教義における問題解決に向けた試論」王立協会哲学論文集53 : 370–418 . doi : 10.1098/rstl.1763.0053 . JSTOR 105741 .
^ Haldane, JBS (1932). 「逆確率に関する注記」.ケンブリッジ哲学協会数学紀要. 28 (1): 55– 61. Bibcode : 1932PCPS...28...55H . doi : 10.1017/s0305004100010495 . S2CID 122773707 .
^ゼルナー、アーノルド (1971).計量経済学におけるベイズ推論入門. Wiley-Interscience. ISBN 978-0471169376。
^ジェフリーズ、ハロルド（1946年9月）. 「推定問題における事前確率の不変形式」 . Proceedings of the Royal Society A 24. 186 (1007): 453–461 . Bibcode : 1946RSPSA.186..453J . doi : 10.1098/ rspa.1946.0056 . PMID 20998741
^ Berger, James; Bernardo, Jose; Sun, Dongchu (2009). 「参照事前分布の正式な定義」 . The Annals of Statistics . 37 (2): 905– 938. arXiv : 0904.0156 . Bibcode : 2009arXiv0904.0156B . doi : 10.1214/07-AOS587 . S2CID 3221355 .
^ Clarke, Bertrand S.; Andrew R. Barron (1994). 「ジェフリーズの事前分布はエントロピーリスクの下で漸近的に最も不利である」(PDF) . Journal of Statistical Planning and Inference . 41 : 37–60 . doi : 10.1016/0378-3758(94)90153-8 .
^ピアソン、カール (1892). 『科学の文法』ウォルター・スコット、ロンドン。
^ピアソン、カール (2009). 『科学の文法』 . BiblioLife. ISBN 978-1110356119。
^ Gelman, A., Carlin, JB, Stern, HS, and Rubin, DB (2003).ベイズ統計データ解析. Chapman and Hall/CRC. ISBN 978-1584883883。{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Jøsang, Audun (2001). 「不確実な確率のための論理」 .国際不確実性、あいまいさ、知識ベースシステムジャーナル. 9 (3): 279– 311. doi : 10.1142/S0218488501000831 . MR 1843261
^ HM de OliveiraとGAA Araújo. ベータ分布から導出されるコンパクトにサポートされた1巡回ウェーブレット.通信情報システムジャーナル. vol.20, n.3, pp.27-33, 2005.
^ Balding, David J. ; Nichols, Richard A. (1995). 「多対立遺伝子座における集団間の差異を定量化する手法と、そのアイデンティティおよび父子関係の調査への影響」Genetica 96 ( 1–2 ) . Springer : 3–12 . doi : 10.1007/BF01441146 . PMID 7607457. S2CID 30680826 .
^ Keefer, Donald L. and Verdini, William A. (1993). PERT活動時間パラメータのより正確な推定. Management Science 39(9), p. 1086–1091.
^キーファー、ドナルド L.、ボディリー、サミュエル E. (1983). 連続確率変数の3点近似. マネジメントサイエンス29(5), p.595–609.
^ 「国防資源管理研究所 - 海軍大学院」www.nps.edu
^ van der Waerden、BL、「数学的統計」、Springer、 ISBN 978-3-540-04507-6。
^用量反応曲線へのフィッティングのための不完全ベータ関数の正規化について ME Wise Biometrika vol 47, No. 1/2, 1960年6月, pp. 173–175
^ Pratt, John W. 「二項分布、F分布、ベータ分布、およびその他の一般的な関連裾分布の確率の正規近似 II」アメリカ統計学会誌、第63巻、第324号、1968年、1457～1483頁。JSTOR、 https://doi.org/10.2307/2285896。2025年10月21日にアクセス。
^ Yule, GU ; Filon, LNG (1936). 「カール・ピアソン 1857–1936」 .王立協会フェロー死亡記事. 2 (5): 72. doi : 10.1098/rsbm.1936.0007 . JSTOR 769130 .
^ 「図書館・アーカイブカタログ」。サックラーデジタルアーカイブ。王立協会。2011年10月25日時点のオリジナルよりアーカイブ。 2011年7月1日閲覧。
^ David, HA and AWF Edwards (2001). Annotated Readings in the History of Statistics . Springer; 第1版. ISBN 978-0387988443。
^ジーニ、コラード (1911). 「事後確率の考察と生後牛の死因に関する報告への応用」カリアリ大学経済学・政治学研究. 第3紀（メトロン15, 133, 171, 1949に再録）: 5–41
^ジョンソン、ノーマン・L・コッツ編（1997年）『統計科学の先駆者たち：17世紀から現在まで』（Wileyシリーズ確率統計学. Wiley. ISBN 978-0471163817。
^メトロンジャーナル。「コラード・ジーニの伝記」。メトロンジャーナル。2012年7月16日時点のオリジナルからアーカイブ。2012年8月18日閲覧

外部リンク

「ベータ分布」、 Fiona Maclachlan 著、Wolfram Demonstrations Project、2007 年。
ベータ分布 – 概要と例、xycoon.com
ベータ版配布、brighton-webs.co.uk
ベータ版配布ビデオ、exstrom.com
「ベータ分布」、数学百科事典、EMSプレス、2001 [1994]
Weisstein, Eric W. 「ベータ分布」。MathWorld 。
ハーバード大学統計学110講義23ベータ分布、ジョー・ブリッツスタイン教授

[JKB-1] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u ^v ^w ^x ^yジョンソン、ノーマン・L.; コッツ、サミュエル; バラクリシュナン、N. (1995). 「第25章ベータ分布」.連続一変量分布第2巻（第2版）. Wiley. ISBN 978-0-471-58494-0。

[Mathematical_Statistics_with_MATHEMATICA-2] コリン・ローズ、マレー・D・スミス (2002). MATHEMATICAによる数理統計. Springer. ISBN 978-0387952345。

[Kruschke2011-3] Kruschke, John K. (2011).ベイズ統計解析の実践：RとBUGSを使ったチュートリアル. Academic Press / Elsevier. p. 83. ISBN 978-0123814852。

[BergerDecisionTheory-4] バーガー、ジェームズ・O. (2010).統計的意思決定理論とベイズ分析（第2版）. シュプリンガー. ISBN 978-1441930743。

[Feller-5] ウィリアム・フェラー (1971).確率論とその応用入門第2巻. Wiley. ISBN 978-0471257097。

[6] ワズワース、GP（1960年）『確率と確率変数入門』ニューヨーク：マグロウヒル、 52ページ

[Kruschke2015-7] Kruschke, John K. (2015). 『ベイズ統計データ分析の実践：R、JAGS、Stanを使ったチュートリアル』Academic Press / Elsevier. ISBN 978-0-12-405888-0。

[Wadsworth-8] ワズワース、ジョージ・P.、ジョセフ・ブライアン (1960)。確率と確率変数入門。マグロウヒル

[Handbook_of_Beta_Distribution-9] ^ ^a ^b ^c ^d ^e ^f ^gグプタ、アルジュン・K.編 (2004).ベータ分布とその応用ハンドブック. CRC Press. ISBN 978-0824753962。

[Kerman2011-10] Kerman, Jouni (2011). 「ベータ分布の中央値の閉形式近似」arXiv : 1111.0433 [ math.ST ]

[MostellerTukey-11] Mosteller, Frederick、John Tukey (1977). 『データ分析と回帰：統計学第2講座』Addison-Wesley Pub. Co. Bibcode : 1977dars.book.....M . ISBN 978-0201048544。

[WillyFeller1-12] ウィリアム・フェラー（1968年）『確率論とその応用入門』第1巻（第3版）ワイリー社ISBN 978-0471257080。

[13] フィリップ・J・フレミング、ジョン・J・ウォレス「統計で嘘をつかない方法：ベンチマーク結果を正しく要約する方法」Communications of the ACM、29(3):218–221、1986年3月。

[14] 「NIST/SEMATECH 統計手法の電子ハンドブック 1.3.6.6.17. ベータ分布」国立標準技術研究所情報技術研究所2012年4月. 2016年5月31日閲覧。

[Oguamanam-15] Oguamanam, DCD; Martin, HR; Huissoon, JP (1995). 「ベータ分布のギア損傷解析への応用について」.応用音響. 45 (3): 247– 261. doi : 10.1016/0003-682X(95)00001-P .

[Liang-16] Zhiqiang Liang; Jianming Wei; Junyu Zhao; Haitao Liu; Baoqing Li; Jie Shen; Chunlei Zheng (2008年8月27日). 「尖度の統計的意味と地震信号に基づく人物識別への新たな応用」 . Sensors . 8 (8): 5106– 5119. Bibcode : 2008Senso...8.5106L . doi : 10.3390/s8085106 . PMC 3705491. PMID 27873804 .

[Kenney_and_Keeping-17] Kenney, JF, および E.S. Keeping (1951). 『統計数学パート2』第2版. D. Van Nostrand Company Inc.{{cite book}}: CS1 maint: multiple names: authors list (link)

[Abramowitz-18] アブラモウィッツ、ミルトン、アイリーン・A・ステガン (1965).数式、グラフ、表付き数学関数ハンドブック. ドーバー. ISBN 978-0-486-61272-0。

[Weisstein.Kurtosi-19] Weisstein, Eric W. 「Kurtosis」 . MathWorld - Wolfram Web Resource . 2012年8月13日閲覧

[Panik-20] パニック、マイケル・J (2005). 『初等的視点からの高度統計学』アカデミック・プレス. ISBN 978-0120884940。

[Pearson-21] ピアソン、カール(1916). 「進化論への数学的貢献 XIX：歪度変動に関する回想録第2補遺」 .王立協会哲学論文集 A. 216 ( 538–548 ) : 429–457 .書誌コード: 1916RSPTA.216..429P . doi : 10.1098/rsta.1916.0009 . JSTOR 91092

[Zwillinger_2014-22] グラドシュテイン、イズライル・ソロモノヴィッチ;ヨシフ・モシェヴィッチ・リジク;ジェロニムス、ユーリ・ヴェニアミノヴィッチ;ツェイトリン、ミハイル・ユリエヴィッチ;ジェフリー、アラン (2015) [2014 年 10 月]。ツウィリンガー、ダニエル。モル、ヴィクトル・ユーゴー（編）。インテグラル、シリーズ、および製品の表。 Scripta Technica, Inc. による翻訳 (第 8 版)。Academic Press, Inc. ISBN 978-0-12-384933-5 LCCN 2014010276

[23] ビリングスリー、パトリック (1995) . 「第30章モーメント法」.確率と測度（第3版）. Wiley-Interscience. ISBN 978-0-471-00710-4。

[MacKay-24] MacKay, David (2003).情報理論、推論、学習アルゴリズム. Cambridge University Press; 初版.書誌コード: 2003itil.book.....M . ISBN 978-0521642989。

[JohnsonLogInv-25] Johnson, NL (1949). 「並進法によって生成された頻度曲線のシステム」(PDF) . Biometrika . 36 ( 1–2 ): 149–176 . doi : 10.1093/biomet/36.1-2.149 . hdl : 10338.dmlcz/ 135506 . PMID 18132090

[26] Verdugo Lazo, ACG; Rathie, PN (1978). 「連続確率分布のエントロピーについて」IEEE Trans. Inf. Theory . 24 (1): 120– 122. doi : 10.1109/TIT.1978.1055832 .

[27] シャノン、クロード・E. (1948). 「通信の数学的理論」.ベルシステム技術ジャーナル. 27 (4): 623– 656. doi : 10.1002/j.1538-7305.1948.tb01338.x .

[Cover_and_Thomas-28] Cover, Thomas M. and Joy A. Thomas (2006). 『情報理論の要素第2版』（Wileyシリーズ電気通信と信号処理） . Wiley-Interscience; 第2版. ISBN 978-0471241959。

[Plunkett-29] プランケット、キム、ジェフリー・エルマン (1997)。『生得性の再考：コネクショニストシミュレーションのためのハンドブック（ニューラルネットワークモデリングとコネクショニズム）』ブラッドフォードブック、166ページ。ISBN 978-0262661058。{{cite book}}: CS1 maint: multiple names: authors list (link)

[Nallapati-30] ナラパティ、ラメシュ (2006).平滑化ディリクレ分布：情報検索におけるクロスエントロピーランキングの理解（論文）. マサチューセッツ大学アマースト校コンピュータサイエンス学部

[Egon-31] ピアソン、エゴン・S.（1969年7月）。「頻度曲線の利用の発展を通して辿る歴史的考察」 THEMIS統計分析研究プログラム、技術報告書38。海軍研究局、契約番号N000014-68-A-0515（プロジェクトNR 042–260）。

[Hahn_and_Shapiro-32] Hahn, Gerald J.; Shapiro, S. (1994). Statistical Models in Engineering (Wiley Classics Library) . Wiley-Interscience. ISBN 978-0471040651。

[Pearson1895-33] ピアソン、カール(1895). 「進化の数学的理論への貢献 II：均質物質における歪んだ変化」 .王立協会哲学論文集. 186 : 343–414 .書誌コード: 1895RSPTA.186..343P . doi : 10.1098/rsta.1895.0010 . JSTOR 90649

[34] Buchanan, K.; Rockway, J.; Sternberg, O.; Mai, NN (2016年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための和差ビームフォーミング」 . 2016 IEEE Radar Conference (RadarConf) . pp. 1– 5. doi : 10.1109/RADAR.2016.7485289 . ISBN 978-1-5090-0863-6. S2CID 32525626 .

[35] Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (2017年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーションのための送信ビームフォーミング」. 2017 IEEE Radar Conference (RadarConf) . pp. 0112– 0117. doi : 10.1109/RADAR.2017.7944181 . ISBN 978-1-4673-8823-8. S2CID 38429370 .

[36] Ryan, Buchanan, Kristopher (2014-05-29). 「非周期的（ランダム）フェーズドアレイの理論と応用」{{cite web}}: CS1 maint: multiple names: authors list (link)

[Pham-Gia2000-37] Pham-Gia, T. (2000年1月). 「独立ベータ変数の比率の分布とその応用」 . Communications in Statistics - Theory and Methods . 29 (12): 2693– 2715. doi : 10.1080/03610920008832632 . ISSN 0361-0926 . 2024年11月13日閲覧.

[NewPERT-38] エレリアス・ベラスコ、ホセ・マヌエル、エレリアス・プレゲスエロ、ラファエル、ルネ・ファン・ドルプ、ヨハン。（2011年）。 PERT 平均と分散を再検討します。 European Journal of Operational Research (210)、p. 448–451。

[Malcolm-39] Malcolm, DG; Roseboom, JH; Clark, CE; Fazar, W. (1958年9月～10月). 「研究開発プログラム評価への手法の応用」.オペレーションズ・リサーチ. 7 (5): 646– 669. doi : 10.1287/opre.7.5.646 . ISSN 0030-364X .

[David1-40] David、HA、Nagaraja、HN (2003)注文統計(第 3 版)。ニュージャージー州ワイリー、458 ページ。ISBN 0-471-38926-9

[41] 「1.3.6.6.17. ベータ版配布」www.itl.nist.gov

[Elderton1906-42] ^ ^a ^b ^c ^d ^e ^f ^g ^hエルダートン、ウィリアム・ペイリン (1906).頻度曲線と相関関係チャールズ・アンド・エドウィン・レイトン (ロンドン).

[Elderton_and_Johnson-43] エルダートン、ウィリアム・ペイリン、ノーマン・ロイド・ジョンソン (2009). 『度数曲線の体系』ケンブリッジ大学出版局. ISBN 978-0521093361。

[BowmanShenton-44] Bowman, KO ; Shenton, LR (2007). 「ベータ分布、モーメント法、Karl PearsonとRA Fisher」(PDF) . Far East J. Theo. Stat . 23 (2): 133– 164

[Pearson1936-45] ピアソン, カール (1936年6月). 「モーメント法と最大尤度法」. Biometrika . 28 (1/2): 34– 59. doi : 10.2307/2334123 . JSTOR 2334123 .

[Joanes_and_Gill-46] Joanes, DN; CA Gill (1998). 「標本の歪度と尖度の指標の比較」. The Statistician . 47 (Part 1): 183– 189. doi : 10.1111/1467-9884.00122 .

[47] Beckman, RJ; GL Tietjen (1978). 「ベータ分布の最大尤度推定」. Journal of Statistical Computation and Simulation . 7 ( 3–4 ): 253– 258. doi : 10.1080/00949657808810232 .

[48] Gnanadesikan, R., Pinkham and Hughes (1967). 「最小順序統計量によるベータ分布パラメータの最大尤度推定」. Technometrics . 9 (4): 607– 620. doi : 10.2307/1266199 . JSTOR 1266199 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[invpsi.m-49] Fackler, Paul. 「逆ディガンマ関数（Matlab）」ハーバード大学工学応用科学部. 2012年8月18日閲覧。

[Silvey-50] シルベイ, SD (1975).統計的推論. チャップマンとハル. p. 40. ISBN 978-0412138201。

[EdwardsLikelihood-51] Edwards, AWF (1992).尤度. ジョンズ・ホプキンス大学出版局. ISBN 978-0801844430。

[Jaynes-52] ^ ^a ^b ^c ^d ^e ^f Jaynes, ET (2003).確率論、科学の論理. Cambridge University Press. ISBN 978-0521592710。

[CostaCover-53] コスタ、マックス、カバー、トーマス（1983年9月）。エントロピー・パワー不等式とブルン・ミンコフスキー不等式の類似性について（PDF）。スタンフォード大学統計学部、技術レポート48{{cite book}}: CS1 maint: multiple names: authors list (link)

[Aryal-54] Aryal, Gokarna; Saralees Nadarajah (2004). 「ベータ分布の情報行列」(PDF) . Serdica Mathematical Journal (ブルガリア科学アカデミー) . 30 : 513– 526.

[Laplace-55] ラプラス、ピエール・シモン、侯爵（1902年）。確率に関する哲学的エッセイ。ニューヨーク：J. Wiley、ロンドン：Chapman & Hall。ISBN 978-1-60206-328-0。{{cite book}}: ISBN / Date incompatibility (help)CS1 maint: multiple names: authors list (link)

[CoxRT-56] コックス、リチャード・T. (1961).確率推論の代数. ジョンズ・ホプキンス大学出版局. ISBN 978-0801869822。{{cite book}}: ISBN / Date incompatibility (help)

[KeynesTreatise-57] ケインズ、ジョン・メイナード (2010) [1921]. 『確率論：哲学と科学史のつながり』ワイルドサイド・プレス. ISBN 978-1434406965。

[PearsonRuleSuccession-58] ピアソン、カール (1907).「過去の経験が未来への期待に与える影響について」.哲学雑誌. 6 (13): 365–378

[Jeffreys-59] ジェフリーズ、ハロルド（1998年）『確率論』オックスフォード大学出版局、第3版。ISBN 978-0198503682。

[BroadMind-60] Broad, CD (1918年10月). 「帰納法と確率の関係について」. MIND, 心理学と哲学の季刊誌. 27 (新シリーズ) (108): 389– 404. doi : 10.1093/mind/XXVII.4.389 . JSTOR 2249035 .

[Perks-61] パークス, ウィルフレッド (1947年1月). 「逆確率に関するいくつかの考察（新たな無差別則を含む）」 .アクチュアリー協会誌. 73 (2): 285– 334. doi : 10.1017/S0020268100012270 . 2014年1月12日時点のオリジナルよりアーカイブ。 2012年9月19日閲覧。

[ThomasBayes-62] ベイズ、トーマス; リチャード・プライス (1763) による伝達。「偶然性の教義における問題解決に向けた試論」王立協会哲学論文集53 : 370–418 . doi : 10.1098/rstl.1763.0053 . JSTOR 105741 .

[63] Haldane, JBS (1932). 「逆確率に関する注記」.ケンブリッジ哲学協会数学紀要. 28 (1): 55– 61. Bibcode : 1932PCPS...28...55H . doi : 10.1017/s0305004100010495 . S2CID 122773707 .

[Zellner-64] ゼルナー、アーノルド (1971).計量経済学におけるベイズ推論入門. Wiley-Interscience. ISBN 978-0471169376。

[JeffreysPRIOR-65] ジェフリーズ、ハロルド（1946年9月）. 「推定問題における事前確率の不変形式」 . Proceedings of the Royal Society A 24. 186 (1007): 453–461 . Bibcode : 1946RSPSA.186..453J . doi : 10.1098/ rspa.1946.0056 . PMID 20998741

[BergerBernardoSun-66] Berger, James; Bernardo, Jose; Sun, Dongchu (2009). 「参照事前分布の正式な定義」 . The Annals of Statistics . 37 (2): 905– 938. arXiv : 0904.0156 . Bibcode : 2009arXiv0904.0156B . doi : 10.1214/07-AOS587 . S2CID 3221355 .

[67] Clarke, Bertrand S.; Andrew R. Barron (1994). 「ジェフリーズの事前分布はエントロピーリスクの下で漸近的に最も不利である」(PDF) . Journal of Statistical Planning and Inference . 41 : 37–60 . doi : 10.1016/0378-3758(94)90153-8 .

[PearsonGrammar-68] ピアソン、カール (1892). 『科学の文法』ウォルター・スコット、ロンドン。

[PearsnGrammar2009-69] ピアソン、カール (2009). 『科学の文法』 . BiblioLife. ISBN 978-1110356119。

[Gelman-70] Gelman, A., Carlin, JB, Stern, HS, and Rubin, DB (2003).ベイズ統計データ解析. Chapman and Hall/CRC. ISBN 978-1584883883。{{cite book}}: CS1 maint: multiple names: authors list (link)

[J01-71] Jøsang, Audun (2001). 「不確実な確率のための論理」 .国際不確実性、あいまいさ、知識ベースシステムジャーナル. 9 (3): 279– 311. doi : 10.1142/S0218488501000831 . MR 1843261

[wavelet_oliveira-72] HM de OliveiraとGAA Araújo. ベータ分布から導出されるコンパクトにサポートされた1巡回ウェーブレット.通信情報システムジャーナル. vol.20, n.3, pp.27-33, 2005.

[Balding-73] Balding, David J. ; Nichols, Richard A. (1995). 「多対立遺伝子座における集団間の差異を定量化する手法と、そのアイデンティティおよび父子関係の調査への影響」Genetica 96 ( 1–2 ) . Springer : 3–12 . doi : 10.1007/BF01441146 . PMID 7607457. S2CID 30680826 .

[74] Keefer, Donald L. and Verdini, William A. (1993). PERT活動時間パラメータのより正確な推定. Management Science 39(9), p. 1086–1091.

[75] キーファー、ドナルド L.、ボディリー、サミュエル E. (1983). 連続確率変数の3点近似. マネジメントサイエンス29(5), p.595–609.

[76] 「国防資源管理研究所 - 海軍大学院」www.nps.edu

[77] van der Waerden、BL、「数学的統計」、Springer、 ISBN 978-3-540-04507-6。

[78] 用量反応曲線へのフィッティングのための不完全ベータ関数の正規化について ME Wise Biometrika vol 47, No. 1/2, 1960年6月, pp. 173–175

[79] Pratt, John W. 「二項分布、F分布、ベータ分布、およびその他の一般的な関連裾分布の確率の正規近似 II」アメリカ統計学会誌、第63巻、第324号、1968年、1457～1483頁。JSTOR、 https://doi.org/10.2307/2285896。2025年10月21日にアクセス。

[80] Yule, GU ; Filon, LNG (1936). 「カール・ピアソン 1857–1936」 .王立協会フェロー死亡記事. 2 (5): 72. doi : 10.1098/rsbm.1936.0007 . JSTOR 769130 .

[rscat-81] 「図書館・アーカイブカタログ」。サックラーデジタルアーカイブ。王立協会。2011年10月25日時点のオリジナルよりアーカイブ。 2011年7月1日閲覧。

[David_History-82] David, HA and AWF Edwards (2001). Annotated Readings in the History of Statistics . Springer; 第1版. ISBN 978-0387988443。

[83] ジーニ、コラード (1911). 「事後確率の考察と生後牛の死因に関する報告への応用」カリアリ大学経済学・政治学研究. 第3紀（メトロン15, 133, 171, 1949に再録）: 5–41

[84] ジョンソン、ノーマン・L・コッツ編（1997年）『統計科学の先駆者たち：17世紀から現在まで』（Wileyシリーズ確率統計学. Wiley. ISBN 978-0471163817。

[85] メトロンジャーナル。「コラード・ジーニの伝記」。メトロンジャーナル。2012年7月16日時点のオリジナルからアーカイブ。2012年8月18日閲覧

[ 1 ]

[

[

[

[

[ 6 ]

[

[ 8 ]

[

[ 10 ]。

11 ] p.207

[ 12 ]

[ 13 ]

[

[ 15 ]

[ 16 ]

[ 17 ]

[

[

[

[ 21 ]

[ 22 ]

[

[ 24 ]

[ 25 ]

[

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]を参照。

[ 36 ]

[

[

[

[

[

[

[

[

[

[

[

[

[

[ 50 ]

[

[ 52 ]

[

[ 54 ]

[

[

[

[

[

[

[

ベータ分布

定義

確率密度関数

累積分布関数

代替パラメータ化

2つのパラメータ

平均と標本サイズ

モードと集中

平均と分散

4つのパラメータ

性質

中心傾向の尺度

最頻値

中央値

平均

幾何平均

調和平均

統計的分散の尺度

分散

幾何分散と共分散

平均値の周りの平均絶対偏差

平均絶対差

歪度

尖度

特性関数

その他のモーメント

モーメント生成関数

高次モーメント

変換された確率変数のモーメント

線形変換、積、反転した確率変数のモーメント

対数変換された確率変数のモーメント

情報量（エントロピー）

統計的指標間の関係

平均値、最頻値、中央値の関係

平均、幾何平均、調和平均の関係

歪度の2乗で囲まれた尖度

対称性

確率密度関数の幾何学

変曲点

図形

対称（α = β）

歪んでいる（α ≠ β）

関連する分布

変換

特殊なケースと限定的なケース

他の分布から派生

他のディストリビューションとの組み合わせ

他の分配との複合

一般化

統計的推論

パラメータ推定

モーメント法

2つの未知パラメータ

4つの未知のパラメータ

最大尤度

2つの未知パラメータ

4つの未知のパラメータ

フィッシャー情報行列

2つのパラメータ

4つのパラメータ

ベイズ推論

継承のルール

ベイズ・ラプラス事前確率（ベータ(1,1)）

ハルデーンの事前確率（Beta(0,0)）

ジェフリーズの事前確率（ベルヌーイ分布または二項分布の場合はBeta(1/2,1/2)）

異なる事前確率の選択が事後ベータ分布に与える影響

発生と応用

順序統計

主観論理

ウェーブレット解析

集団遺伝学

プロジェクト管理：タスクコストとスケジュールのモデリング

ランダム変量生成

ベータ分布の正規近似

歴史

参考文献

外部リンク