Family of probability distributions related to the normal distribution
確率 と 統計 において 、 指数分布族とは、以下に指定する特定の形式の 確率分布 の パラメータ 集合である 。この特殊な形式は、数学的な利便性(ユーザーが有用な代数的性質に基づく微分法を用いて期待値や共分散を計算できるようにするなど)と一般性を目的として選択された。指数分布族はある意味で非常に自然な分布集合であるためである。 指数クラスという用語は、「指数族」 [1] や、より古い用語である クープマン・ダルモワ族 の代わりに使用されることがある。 指数 分布族と広く呼ばれることもあるこの分布のクラスは、いずれもさまざまな望ましい特性、最も重要なのは 十分な統計量 の存在を備えているという点で独特である 。
指数分布族の概念は、 1935年から1936年にかけて [2] EJG Pitman 、 [3] G. Darmois 、 [4] および BO Koopman [5] によって提唱されました。指数分布族は、自然なパラメータを用いて、 パラメトリック分布族 の可能な代替パラメータ化を選択するための一般的な枠組みを提供し、また、その族の自然十分統計量と呼ばれる有用な 標本統計量 を定義するための枠組みを提供します。
命名法の難しさ 「分布」と「族」という用語は、しばしばあいまいに使用されます。具体的には、 指数 族は分布の 集合 であり、特定の分布はパラメータによって変化します。 [a] ただし、パラメトリックな分布 族は「 分布 」と呼ばれることが多く (「正規分布」のように「正規分布の族」を意味します)、すべての指数族の集合は、あいまいに「その」指数族と呼ばれることもあります。
意味 一般的に用いられる分布のほとんどは、以下の節に列挙する指数分布族もしくは指数分布族の部分集合を形成します。それに続く節では、指数分布族のより一般的な数学的定義を順に示します。一般の読者は、最初の最も単純な定義、すなわち 離散 または 連続 確率分布の単一パラメータ族に対応する定義にのみ注目すると良いでしょう。
指数分布族の例 指数族には最も一般的な分布の多くが含まれます。中でも、指数族には以下のものが含まれます。 [6]
多くの一般的な分布は指数分布族ですが、特定のパラメータが固定され、既知である場合に限られます。例えば、
いずれの場合も、固定する必要があるパラメータは、観測可能な値の範囲に制限を設定するものであることに注意してください。
指数分布族では ない 一般的な分布の例としては、 スチューデントの t分布 、ほとんどの 混合分布、そして境界が固定されていない場合の 一様分布 族などが 挙げられます。詳細については、以下の例のセクションを参照してください。
スカラーパラメータ の値は ファミリーの パラメータ と呼ばれます。 θ {\displaystyle \theta }
単一パラメータ指数分布族は、 確率密度関数 ( 離散分布 の場合は 確率質量関数 )が次の形式で表せる
確率分布の集合である。
f X ( x | θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}{\left(x\,{\big |}\,\theta \right)}=h(x)\,\exp \left[\eta (\theta )\cdot T(x)-A(\theta )\right]}
ここで 、T ( x ) 、 h ( x ) 、 η ( θ ) 、 A ( θ ) は既知の関数です。関数 h ( x ) は非負でなければなりません。
よく使われる代替形式としては、
f X ( x | θ ) = h ( x ) g ( θ ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle f_{X}{\left(x\ {\big |}\ \theta \right)}=h(x)\,g(\theta )\,\exp \left[\eta (\theta )\cdot T(x)\right]}
または同等
f X ( x | θ ) = exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) + B ( x ) ] . {\displaystyle f_{X}{\left(x\ {\big |}\ \theta \right)}=\exp \left[\eta (\theta )\cdot T(x)-A(\theta )+B(x)\right].}
対数確率の 観点から見ると 、 log ( f X ( x | θ ) ) = η ( θ ) ⋅ T ( x ) − A ( θ ) + B ( x ) . {\displaystyle \log(f_{X}{\left(x\ {\big |}\ \theta \right)})=\eta (\theta )\cdot T(x)-A(\theta )+B(x).}
および に 注意してください 。 g ( θ ) = e − A ( θ ) {\displaystyle g(\theta )=e^{-A(\theta )}} h ( x ) = e B ( x ) {\displaystyle h(x)=e^{B(x)}}
サポートは独立していなければならない θ 重要なのは、 ( より大きい の 可能なすべての 値 ) の サポート が[7] に依存し ない ことが要求されることです
。この要件は、パラメトリック分布族が指数分布族ではないことを除外するために使用できます。 f X ( x | θ ) {\displaystyle f_{X}{\left(x{\big |}\theta \right)}} x {\displaystyle x} f X ( x | θ ) {\displaystyle f_{X}\!\left(x{\big |}\theta \right)} 0 {\displaystyle 0} θ . {\displaystyle \theta ~.}
たとえば、 パレート分布に は、(最小値はスケールパラメータ) に対して定義される pdf があり 、したがって、そのサポートの下限は となります。 のサポートは パラメータの値に依存するため、 パレート分布 族は、(少なくとも が不明な場合は)指数分布族を形成しません。 x ≥ x m {\displaystyle x\geq x_{\mathsf {m}}} x m , {\displaystyle x_{m}\ ,} x m . {\displaystyle x_{\mathsf {m}}~.} f α , x m ( x ) {\displaystyle f_{\alpha ,x_{m}}\!(x)} x m {\displaystyle x_{m}}
別の例: ベルヌーイ型 分布 ( 二項 分布、 負の二項分布 、 幾何分布 など) は、 ベルヌーイ試行回数 n が 固定定数 (自由パラメータから除外) として扱われる場合にのみ指数クラスに含めることができます 。これは、許容される試行回数によって、一連の試行で観測できる「成功」または「失敗」の数の制限が設定されるためです。 θ {\displaystyle \theta }
ベクトル値 × そして θ 多くの場合 、 は測定値のベクトルであり、その場合、 の可能な値の空間から 実数までの関数である可能性があります。 x {\displaystyle x} T ( x ) {\displaystyle T(x)} x {\displaystyle x}
より一般的には、 と は それぞれベクトル値を持つことができ、 は実数値となります。ただし、 曲線 指数族については、以下のベクトルパラメータに関する議論を参照してください 。 η ( θ ) {\displaystyle \eta (\theta )} T ( x ) {\displaystyle T(x)} η ( θ ) ⋅ T ( x ) {\displaystyle \eta (\theta )\cdot T(x)}
ならば、 指数族は 標準形 であると言われる。変換されたパラメータを定義することで、 指数族を標準形に変換することは常に可能である。標準形は一意ではない。なぜなら、 は 任意の非ゼロ定数と乗算できるからである。ただし、 T ( x ) にその定数の逆数を乗じるか、定数 c を に加えて h ( x ) を で 乗じて相殺する 。特別な場合であり、 かつ T ( x ) = xである場合には、その族は 自然指数族 と呼ばれる 。 η ( θ ) = θ , {\displaystyle \eta (\theta )=\theta \ ,} η = η ( θ ) , {\displaystyle \eta =\eta (\theta )\ ,} η ( θ ) {\displaystyle \eta (\theta )} η ( θ ) {\displaystyle \eta (\theta )} exp [ − c ⋅ T ( x ) ] {\displaystyle \exp \left[{-c}\cdot T(x)\,\right]} η ( θ ) = θ {\displaystyle \eta (\theta )=\theta }
がスカラーで、パラメータが 1 つしかない 場合でも、関数 と は、 以下で説明するようにベクトルになることができます。 x {\displaystyle x} η ( θ ) {\displaystyle \eta (\theta )} T ( x ) {\displaystyle T(x)}
関数 または は、 他の関数が選択されると自動的に決定されます。これは、分布が 正規化される (領域全体で合計または積分すると1になる)ような形を取らなければならないためです。さらに、これらの関数はどちらも、が 1対1 関数でない 場合でも、常に の関数として表すことができます。 つまり、 の2つ以上の異なる値が の 同じ値に写像され、 したがって逆変換することはできません。このような場合、 の同じ値に写像される すべての値は、 と について も同じ値を持ちます。 A ( θ ) , {\displaystyle A(\theta )\ ,} g ( θ ) , {\displaystyle g(\theta )\ ,} η , {\displaystyle \eta \ ,} η ( θ ) {\displaystyle \eta (\theta )} θ {\displaystyle \theta } η ( θ ) , {\displaystyle \eta (\theta )\ ,} η ( θ ) {\displaystyle \eta (\theta )} θ {\displaystyle \theta } η ( θ ) {\displaystyle \eta (\theta )} A ( θ ) {\displaystyle A(\theta )} g ( θ ) . {\displaystyle g(\theta )~.}
関係する変数の因数分解 注目すべき重要な点、そしてすべての指数関数族の変種に共通する特徴は、パラメータと観測変数が、直接、あるいは 指数演算のどちらかの部分(底または指数)において 因数分解 (それぞれが1種類の変数のみを含む積に分解)できる必要がある ということです。一般的に、これは密度関数または質量関数を構成するすべての因子が、以下のいずれかの形式である必要があることを意味します。
f ( x ) , c f ( x ) , [ f ( x ) ] c , [ f ( x ) ] g ( θ ) , [ f ( x ) ] h ( x ) g ( θ ) , g ( θ ) , c g ( θ ) , [ g ( θ ) ] c , [ g ( θ ) ] f ( x ) , o r [ g ( θ ) ] h ( x ) j ( θ ) , {\displaystyle {\begin{aligned}f(x),&&c^{f(x)},&&{[f(x)]}^{c},&&{[f(x)]}^{g(\theta )},&&{[f(x)]}^{h(x)g(\theta )},\\g(\theta ),&&c^{g(\theta )},&&{[g(\theta )]}^{c},&&{[g(\theta )]}^{f(x)},&&~~{\mathsf {or}}~~{[g(\theta )]}^{h(x)j(\theta )},\end{aligned}}}
ここで 、 f と h は 観測された統計変数 x の任意の関数です。 g と j は 分布の形状を定義する固定パラメータ の任意の関数です。 c は任意の定数式(つまり、 x または によって変化しない数値または式 )です。 θ , {\displaystyle \theta ,} θ {\displaystyle \theta }
このような要因がいくつ出現できるかについては、さらに制限があります。例えば、次の2つの式があります。
[ f ( x ) g ( θ ) ] h ( x ) j ( θ ) , [ f ( x ) ] h ( x ) j ( θ ) [ g ( θ ) ] h ( x ) j ( θ ) , {\displaystyle {[f(x)g(\theta )]}^{h(x)j(\theta )},\qquad {[f(x)]}^{h(x)j(\theta )}{[g(\theta )]}^{h(x)j(\theta )},}
は同じ、つまり2つの「許容される」因数の積である。しかし、因数分解された形に書き直すと、
[ f ( x ) g ( θ ) ] h ( x ) j ( θ ) = [ f ( x ) ] h ( x ) j ( θ ) [ g ( θ ) ] h ( x ) j ( θ ) = exp { [ h ( x ) log f ( x ) ] j ( θ ) + h ( x ) [ j ( θ ) log g ( θ ) ] } , {\displaystyle {\begin{aligned}{\left[f(x)g(\theta )\right]}^{h(x)j(\theta )}&={\left[f(x)\right]}^{h(x)j(\theta )}{\left[g(\theta )\right]}^{h(x)j(\theta )}\\[4pt]&=\exp \left\{{[h(x)\log f(x)]j(\theta )+h(x)[j(\theta )\log g(\theta )]}\right\},\end{aligned}}}
要求された形式では表現できないことがわかります。(ただし、この種の形式は 曲線指数族 のメンバーであり、指数に複数の因数分解された項を許容します。 [ 引用が必要 ] )
次のような表現がなぜ
[ f ( x ) ] g ( θ ) {\displaystyle {[f(x)]}^{g(\theta )}}
資格がある、 [ f ( x ) ] g ( θ ) = e g ( θ ) log f ( x ) {\displaystyle {[f(x)]}^{g(\theta )}=e^{g(\theta )\log f(x)}}
したがって指数内部で因数分解されます。同様に、
[ f ( x ) ] h ( x ) g ( θ ) = e h ( x ) g ( θ ) log f ( x ) = e [ h ( x ) log f ( x ) ] g ( θ ) {\displaystyle {[f(x)]}^{h(x)g(\theta )}=e^{h(x)g(\theta )\log f(x)}=e^{[h(x)\log f(x)]g(\theta )}}
そして再び指数内で因数分解します。
両方のタイプの変数が含まれる合計で構成される因数(形式の因数など)は、この方法で因数分解することはできません(指数に直接出現する一部の場合を除く)。これが、たとえば コーシー分布 や スチューデントの t 分布 が指数族ではない 理由です。 1 + f ( x ) g ( θ ) {\displaystyle 1+f(x)g(\theta )}
ベクトルパラメータ 1つの実数 パラメータによる定義は、 1つの 実ベクトル パラメータ に拡張できる。
θ ≡ [ θ 1 θ 2 ⋯ θ s ] T . {\displaystyle {\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{s}\end{bmatrix}}^{\mathsf {T}}.}
確率密度関数(離散分布の場合は確率質量関数)が次のように書ける場合、分布族はベクトル指数分布族に属するという。
f X ( x ∣ θ ) = h ( x ) exp ( ∑ i = 1 s η i ( θ ) T i ( x ) − A ( θ ) ) , {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,}
あるいはより簡潔な形で言えば、
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }})\right]}
この形式では、合計を ベクトル値関数 と T ( x )の ドット積 として表します。 η ( θ ) {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})}
よく見られる代替の同等の形式は
f X ( x ∣ θ ) = h ( x ) g ( θ ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]}
スカラー値の場合と同様に、指数族が標準形 であると は
、
η i ( θ ) = θ i , ∀ i . {\displaystyle \eta _{i}({\boldsymbol {\theta }})=\theta _{i}~,\quad \forall i\,.}
ベクトル指数族は、 次の次元が成り立つとき、 曲がっていると言われる。
θ ≡ [ θ 1 θ 2 ⋯ θ d ] T {\displaystyle {\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{d}\end{bmatrix}}^{\mathsf {T}}}
ベクトルの次元より小さい
η ( θ ) ≡ [ η 1 ( θ ) η 2 ( θ ) ⋯ η s ( θ ) ] T . {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv {\begin{bmatrix}\eta _{1}{\!({\boldsymbol {\theta }})}&\eta _{2}{\!({\boldsymbol {\theta }})}&\cdots &\eta _{s}{\!({\boldsymbol {\theta }})}\end{bmatrix}}^{\mathsf {T}}~.}
つまり、上記の確率密度関数の表現において、パラメータベクトルの次元 d がパラメータベクトルの関数数 s よりも小さい場合 です 。 指数 分布 族 の最も一般的な分布は曲線では なく 、 任意 の指数分布族を扱うように設計された多くのアルゴリズムは、暗黙的または明示的に、分布が曲線ではないと仮定しています。
スカラー値パラメータの場合と同様に、 他の関数が選択されれば、関数 または等価な関数 は正規化制約によって自動的に決定されます。 が1対1でなくても、関数 と は、 自然パラメータ の各値に対して分布が正規化されることを要求することで定義できます。これにより、 標準形が 得られます。 A ( θ ) {\displaystyle A({\boldsymbol {\theta }})} g ( θ ) {\displaystyle g({\boldsymbol {\theta }})} η ( θ ) {\displaystyle {\boldsymbol {\eta }}({\boldsymbol {\theta }})} A ( η ) {\displaystyle A({\boldsymbol {\eta }})} g ( η ) {\displaystyle g({\boldsymbol {\eta }})} η {\displaystyle {\boldsymbol {\eta }}}
f X ( x ∣ η ) = h ( x ) exp [ η ⋅ T ( x ) − A ( η ) ] , {\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right],}
または同等
f X ( x ∣ η ) = h ( x ) g ( η ) exp [ η ⋅ T ( x ) ] . {\displaystyle f_{X}(x\mid {\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)\right].}
上記の形式は、 の代わりに が使われることがあります 。これらは全く同じ式であり、単に ドット積の 表記が異なるだけです。 η T T ( x ) {\displaystyle {\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)} η ⋅ T ( x ) {\displaystyle {\boldsymbol {\eta }}\cdot \mathbf {T} (x)\,}
ベクトルパラメータ、ベクトル変数 単一のスカラー値確率変数のベクトルパラメータ形式は、ベクトル確率変数の結合分布をカバーするように簡単に拡張できる。結果として得られる分布は、スカラー値確率変数の分布の、スカラー x の各出現をベクトルで置き換えた
ものと単純に同じである。
x = [ x 1 x 2 ⋯ x k ] T . {\displaystyle \mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{k}\end{bmatrix}}^{\mathsf {T}}.}
ランダム変数の次元 k は、パラメータベクトルの次元 d と一致する必要はなく、(曲線指数関数の場合) 自然パラメータ および 十分な統計量 T ( x )の次元 s と一致する必要もありません 。 η {\displaystyle {\boldsymbol {\eta }}}
この場合の分布は次のように表される。
f X ( x ∣ θ ) = h ( x ) exp [ ∑ i = 1 s η i ( θ ) T i ( x ) − A ( θ ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \!\left[\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x} )-A({\boldsymbol {\theta }})\right]}
あるいはもっと簡潔に言うと
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]}
あるいは
f X ( x ∣ θ ) = g ( θ ) h ( x ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=g({\boldsymbol {\theta }})\,h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )\right]}
離散分布と連続分布の両方を網羅するために、 累積分布関数 (CDF)を使用します。
H が 実変数の非減少関数である と仮定する。すると、 に関する ルベーグ・スティルチェス積分は、 H によって生成される指数族の 基準測度 に関する積分となる 。 d H ( x ) {\displaystyle dH(\mathbf {x} )}
その指数族のどの要素も累積分布関数を持つ
d F ( x ∣ θ ) = exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] d H ( x ) . {\displaystyle dF{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~dH(\mathbf {x} )\,.}
H ( x ) は参照測度の ルベーグ・スティルチェス積分関数 です 。参照測度が有限の場合、正規化することができ、 H は実際には確率分布の 累積分布関数 です 。Fが 参照測度(通常は ルベーグ測度 )に関して 密度と絶対連続である 、 と書くことができます 。この場合、 H も絶対連続であり、 と書くことができ 、式は前の段落の式に簡約されます。F が離散の場合 、 H は ステップ関数 ( F の サポート 上にステップを持つ)です 。 f ( x ) {\displaystyle f(x)} d x {\displaystyle dx} d F ( x ) = f ( x ) d x {\displaystyle dF(x)=f(x)\,dx} d H ( x ) = h ( x ) d x {\displaystyle dH(x)=h(x)\,dx}
あるいは、確率測度を直接次のように書くこともできる。
P ( d x ∣ θ ) = exp [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] μ ( d x ) . {\displaystyle P\left(d\mathbf {x} \mid {\boldsymbol {\theta }}\right)=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~\mu (d\mathbf {x} )\,.}
何らかの参考尺として 。 μ {\displaystyle \mu \,}
解釈 上記の定義において、関数 T ( x ) 、 η ( θ ) 、 A ( η ) は任意のものでした。しかし、これらの関数は、結果として得られる確率分布において重要な解釈を持ちます。
T ( x ) は分布の 十分統計量 です 。指数族の場合、十分統計量は、データx が未知のパラメータ値に関して提供するすべての情報を保持するデータの関数です。つまり、任意のデータ セット と 、尤度比は同じであり、 T ( x ) = T ( y ) で あることを意味します。これは、 x と y が互いに等しくない 場合にも当てはまります 。 T ( x )の次元は θ のパラメータの数に等しく 、パラメータ θに関連するデータに関するすべての情報を包含します。 独立した同一分布の データ観測セットの十分統計 量は、個々の十分統計量の合計にすぎず、データが与えられた場合のパラメータの事後分布を 記述するために必要なすべての情報をカプセル化します (したがって、パラメータの任意の推定値を導き出すために必要なすべての情報をカプセル化します )。 (この重要な特性については、以下でさらに説明します。) x {\displaystyle x} y {\displaystyle y} f ( x ; θ 1 ) f ( x ; θ 2 ) = f ( y ; θ 1 ) f ( y ; θ 2 ) {\displaystyle {\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}} ηは 自然パラメータ と呼ばれる。 関数が積分可能な η の値の集合は 自然パラメータ空間 と呼ばれる。自然パラメータ空間は常に 凸で あることが示される 。 f X ( x ; η ) {\displaystyle f_{X}(x;\eta )} A ( η ) は 対数 分割関数 [b]は 正規化係数 の 対数 であるため 、これがなければ 確率分布は成り立ちません。 f X ( x ; θ ) {\displaystyle f_{X}(x;\theta )} A ( η ) = log ( ∫ X h ( x ) exp [ η ( θ ) ⋅ T ( x ) ] d x ) {\displaystyle A(\eta )=\log \left(\int _{X}h(x)\,\exp \left[\eta (\theta )\cdot T(x)\right]\,dx\right)} 関数 A はそれ自体が重要です。なぜなら、 十分統計量 T ( x )の 平均 、 分散 、その他の モーメントは、 A ( η ) を 微分するだけで簡単に導出できるからです 。例えば、 log( x )は ガンマ分布 の十分統計量の成分の一つであるため 、この分布の は A ( η ) を用いて簡単に決定できます。技術的には、 は 十分統計量の キュムラント生成関数 である ため、これは正しいと言えます。 E [ log x ] {\displaystyle \operatorname {\mathcal {E}} [\log x]} K ( u ∣ η ) = A ( η + u ) − A ( η ) , {\displaystyle K{\left(u\mid \eta \right)}=A(\eta +u)-A(\eta )\,,}
プロパティ 指数族には、統計解析に非常に役立つ多くの性質があります。多くの場合、指数族 だけが これらの性質を持つことが示されます。例:
によって定義される指数族が与えられ 、ここで はパラメータ空間であり、 となる 。すると、 f X ( x ∣ θ ) = h ( x ) exp [ θ ⋅ T ( x ) − A ( θ ) ] {\displaystyle f_{X}{\!(x\mid \theta )}=h(x)\exp \left[\theta \cdot T(x)-A(\theta )\right]} Θ {\displaystyle \Theta } θ ∈ Θ ⊂ R k {\displaystyle \theta \in \Theta \subset \mathbb {R} ^{k}}
が において空でない内部構造を持つ 場合 、任意の IIDサンプル が与えられれば、統計量 は の完全統計量となる 。 [9] [10] Θ {\displaystyle \Theta } R k {\displaystyle \mathbb {R} ^{k}} X 1 , . . . , X n ∼ f X {\displaystyle X_{1},...,X_{n}\sim f_{X}} T ( X 1 , … , X n ) := ∑ i = 1 n T ( X i ) {\textstyle T(X_{1},\dots ,X_{n}):=\sum _{i=1}^{n}T(X_{i})} θ {\displaystyle \theta } T {\displaystyle T} は、すべての に対して の 場合に限り 、の最小統計量であり 、 のサポートにおいて の 場合 、または である 。 [11] θ {\displaystyle \theta } θ 1 , θ 2 ∈ Θ {\displaystyle \theta _{1},\theta _{2}\in \Theta } x 1 , x 2 {\displaystyle x_{1},x_{2}} X {\displaystyle X} ( θ 1 − θ 2 ) ⋅ [ T ( x 1 ) − T ( x 2 ) ] = 0 {\displaystyle (\theta _{1}-\theta _{2})\cdot [T(x_{1})-T(x_{2})]=0} θ 1 = θ 2 {\displaystyle \theta _{1}=\theta _{2}} x 1 = x 2 {\displaystyle x_{1}=x_{2}}
例 このセクションの例を検討する際には、「分布」が指数族であると言うことの意味についての上記の議論を思い出すことが重要です。特に、変化が許されるパラメータのセットが、「分布」が指数族であるかどうかを判断する上で重要であることを念頭に置いておくことが重要です。
正規分布 、 指数 分布 、 対数正規分布 、 ガンマ分布 、 カイ二乗分布 、 ベータ 分布、 ディリクレ分布 、 ベルヌーイ 分布、 カテゴリ分布 、 ポアソン分布 、幾何 分布 、 逆ガウス分布 、 ALAAM 分布 、 フォン ミーゼス 分布、 フォン ミーゼス フィッシャー 分布はすべて指数分布族です。
一部の分布は、パラメータの一部が固定されている場合にのみ指数分布族となります。 最小値 x mが固定されている パレート分布 族は指数分布族を形成します。 試行回数 nが固定されているものの確率パラメータが未知である 二項 分布および 多項 分布族は指数分布族です。失敗回数(停止時間パラメータとも呼ばれる) rが固定されている 負の二項分布 族は 指数分布族です。ただし、上記の固定パラメータのいずれかが変化することを許容する場合、結果として得られる分布族は指数分布族ではありません。
前述のように、一般的な規則として、指数分布族の 支持度は 、その分布族内のすべてのパラメータ設定において一定でなければなりません。これが、上記のケース(例えば、試行回数が変化する二項分布、下限値が変化するパレート分布)が指数分布族ではない理由です。いずれの場合も、問題のパラメータが支持度に影響を与えます(特に、最小値または最大値の変化)。同様の理由から、 離散一様分布 も 連続一様分布 も、一方または両方の境界値が変化するため、指数分布族ではありません。
形状パラメータ k を固定したワイブル 分布は 指数分布族です。これまでの例とは異なり、形状パラメータは支持点に影響を与えません。形状パラメータを変化させるとワイブル分布が指数分布ではなくなるのは、ワイブル分布の 確率密度関数 の特殊な形( 指数の指数に kが現れる)によるものです。
一般に、 他の分布の有限または無限 混合から生じる分布(例えば、 混合モデル 密度や 複合確率分布) は指数分布族ではあり ません 。例としては、典型的なガウス 混合モデル や、分布と そのパラメータの1つに関する 事前分布を 複合 (つまり、無限混合) することで生じる多く の裾の重い分布(例えば、 スチューデントの t 分布 ( ガンマ分布の 精度事前分布で 正規分布 を複合)や、 ベータ二項分布 、 ディリクレ多項 分布)が挙げられます。指数分布族ではない分布の他の例としては、 F分布 、 コーシー分布 、 超幾何分布 、 ロジスティック分布 などがあります。
以下に、いくつかの有用な分布を指数族として表現した詳細な例を示します。
正規分布:平均は不明、分散は既知 最初の例として、平均μ が未知で 分散 σ 2 が既知の 正規分布に従う確率変数を考える 。確率密度関数は次のようになる。
f σ ( x ; μ ) = 1 2 π σ 2 e − ( x − μ ) 2 / 2 σ 2 . {\displaystyle f_{\sigma }(x;\mu )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu )^{2}/2\sigma ^{2}}.}
これは単一パラメータの指数族であり、次のように設定するとわかる。
T σ ( x ) = x σ , h σ ( x ) = 1 2 π σ 2 e − x 2 / 2 σ 2 , A σ ( μ ) = μ 2 2 σ 2 , η σ ( μ ) = μ σ . {\displaystyle {\begin{aligned}T_{\sigma }(x)&={\frac {x}{\sigma }},&h_{\sigma }(x)&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/2\sigma ^{2}},\\[4pt]A_{\sigma }(\mu )&={\frac {\mu ^{2}}{2\sigma ^{2}}},&\eta _{\sigma }(\mu )&={\frac {\mu }{\sigma }}.\end{aligned}}}
σ = 1 の 場合、 これは標準形となり、 η ( μ ) = μ となります。
正規分布:平均と分散は不明 次に、平均と分散が未知の正規分布の場合を考えてみましょう。確率密度関数は次のようになります。
f ( y ; μ , σ 2 ) = 1 2 π σ 2 e − ( y − μ ) 2 / 2 σ 2 . {\displaystyle f(y;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(y-\mu )^{2}/2\sigma ^{2}}.}
これは指数族であり、次のように定義して標準形で表すことができます。
h ( y ) = 1 2 π , η = [ μ σ 2 , − 1 2 σ 2 ] , T ( y ) = ( y , y 2 ) T , A ( η ) = μ 2 2 σ 2 + log | σ | = − η 1 2 4 η 2 + 1 2 log | 1 2 η 2 | {\displaystyle {\begin{aligned}h(y)&={\frac {1}{\sqrt {2\pi }}},&{\boldsymbol {\eta }}&=\left[{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\right],\\T(y)&=\left(y,y^{2}\right)^{\mathsf {T}},&A({\boldsymbol {\eta }})&={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}}
二項分布 離散指数分布族の例として、 試行回数が 既知 の 二項分布を考えてみましょう 。 この分布の確率質量関数は です 。 これ は等価的に と書け 、二項分布が指数分布族であり、その自然パラメータは であることがわかります。 この pの関数は logit として知られています 。 f ( x ) = ( n x ) p x ( 1 − p ) n − x , x ∈ { 0 , 1 , 2 , … , n } . {\displaystyle f(x)={\binom {n}{x}}p^{x}{\left(1-p\right)}^{n-x},\quad x\in \{0,1,2,\ldots ,n\}.} f ( x ) = ( n x ) exp [ x log ( p 1 − p ) + n log ( 1 − p ) ] , {\displaystyle f(x)={\binom {n}{x}}\exp \left[x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right],} η = log p 1 − p . {\displaystyle \eta =\log {\frac {p}{1-p}}.}
分布表 以下の表は、いくつかの一般的な分布を自然パラメータを持つ指数分布族として書き直す方法を示しています。主要な指数分布族については、フラッシュカード [12] を参照してください。
スカラー変数とスカラーパラメータの場合、形式は次のようになります。
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) T ( x ) − A ( η ) ] {\displaystyle f_{X}(x\mid \theta )=h(x)\exp \left[\eta ({\theta })T(x)-A(\eta )\right]}
スカラー変数とベクトルパラメータの場合:
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( η ) ] f X ( x ∣ θ ) = h ( x ) g ( θ ) exp [ η ( θ ) ⋅ T ( x ) ] {\displaystyle {\begin{aligned}f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right]\\[4pt]f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]\end{aligned}}}
ベクトル変数とベクトルパラメータの場合:
f X ( x ∣ θ ) = h ( x ) exp [ η ( θ ) ⋅ T ( x ) − A ( η ) ] {\displaystyle f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }})\right]}
上記の式は、対数分割関数を持つ指数関数族の関数形式を選択しています 。これは、この関数を微分するだけで十分統計量のモーメントを簡単に計算できるためです。別の形式としては、この関数を自然パラメータで はなく正規パラメータでパラメータ化するか、 指数関数以外の因子を使用する方法があります。後者と前者の関係は次のとおりです。2
種類のパラメータを含む表現を変換するには、以下の式を使用して、一方のパラメータをもう一方のパラメータで表します。 A ( η ) {\displaystyle A({\boldsymbol {\eta }})} θ {\displaystyle {\boldsymbol {\theta }}} g ( η ) {\displaystyle g({\boldsymbol {\eta }})} A ( η ) = − log g ( η ) , g ( η ) = e − A ( η ) {\displaystyle {\begin{aligned}A({\boldsymbol {\eta }})&=-\log g({\boldsymbol {\eta }}),\\[2pt]g({\boldsymbol {\eta }})&=e^{-A({\boldsymbol {\eta }})}\end{aligned}}}
分布 パラメータ θ 自然パラメータ η 逆パラメータマッピング 基本測度 h ( x ) 十分な統計量 T ( x ) 対数分割 A ( η ) 対数分割 A ( θ ) ベルヌーイ分布 p {\displaystyle p} log p 1 − p {\displaystyle \log {\frac {p}{1-p}}} これは ロジット関数 です。 1 1 + e − η = e η 1 + e η {\displaystyle {\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}} これは ロジスティック関数 です。 1 {\displaystyle 1} x {\displaystyle x} log ( 1 + e η ) {\displaystyle \log(1+e^{\eta })} − log ( 1 − p ) {\displaystyle -\log(1-p)} 試行回数が既知の 二項分布 n {\displaystyle n} p {\displaystyle p} log p 1 − p {\displaystyle \log {\frac {p}{1-p}}} 1 1 + e − η = e η 1 + e η {\displaystyle {\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}} ( n x ) {\displaystyle {\binom {n}{x}}} x {\displaystyle x} n log ( 1 + e η ) {\displaystyle n\log(1+e^{\eta })} − n log ( 1 − p ) {\displaystyle -n\log(1-p)} ポアソン分布 λ {\displaystyle \lambda } log λ {\displaystyle \log \lambda } e η {\displaystyle e^{\eta }} 1 x ! {\displaystyle {\frac {1}{x!}}} x {\displaystyle x} e η {\displaystyle e^{\eta }} λ {\displaystyle \lambda } 失敗数が既知の 負の二項分布 r {\displaystyle r} p {\displaystyle p} log ( 1 − p ) {\displaystyle \log(1-p)} 1 − e η {\displaystyle 1-e^{\eta }} ( x + r − 1 x ) {\displaystyle {\binom {x{+}r{-}1}{x}}} x {\displaystyle x} − r log ( 1 − e η ) {\displaystyle -r\log(1-e^{\eta })} − r log ( 1 − p ) {\displaystyle -r\log(1-p)} 指数分布 λ {\displaystyle \lambda } − λ {\displaystyle -\lambda } − η {\displaystyle -\eta } 1 {\displaystyle 1} x {\displaystyle x} − log ( − η ) {\displaystyle -\log(-\eta )} − log λ {\displaystyle -\log \lambda } 最小値が既知の パレート分布 x m {\displaystyle x_{m}} α {\displaystyle \alpha } − α − 1 {\displaystyle -\alpha -1} − 1 − η {\displaystyle -1-\eta } 1 {\displaystyle 1} log x {\displaystyle \log x} − log ( − 1 − η ) + ( 1 + η ) log x m {\displaystyle {\begin{aligned}&-\log(-1-\eta )\\&+(1+\eta )\log x_{\mathrm {m} }\end{aligned}}} − log ( α x m α ) {\displaystyle -\log \left(\alpha x_{\mathrm {m} }^{\alpha }\right)} 形状 kが既知の ワイブル分布 λ {\displaystyle \lambda } − 1 λ k {\displaystyle -{\frac {1}{\lambda ^{k}}}} ( − η ) − 1 / k {\displaystyle (-\eta )^{-1/k}} x k − 1 {\displaystyle x^{k-1}} x k {\displaystyle x^{k}} log ( − 1 η k ) {\displaystyle \log \left(-{\frac {1}{\eta k}}\right)} log λ k k {\displaystyle \log {\frac {\lambda ^{k}}{k}}} 平均値が既知の ラプラス分布 μ {\displaystyle \mu } b {\displaystyle b} − 1 b {\displaystyle -{\frac {1}{b}}} − 1 η {\displaystyle -{\frac {1}{\eta }}} 1 {\displaystyle 1} | x − μ | {\displaystyle |x-\mu |} log ( − 2 η ) {\displaystyle \log \left(-{\frac {2}{\eta }}\right)} log 2 b {\displaystyle \log 2b} カイ二乗分布 ν {\displaystyle \nu } ν 2 − 1 {\displaystyle {\frac {\nu }{2}}-1} 2 ( η + 1 ) {\displaystyle 2(\eta +1)} e − x / 2 {\displaystyle e^{-x/2}} log x {\displaystyle \log x} log Γ ( η + 1 ) + ( η + 1 ) log 2 {\displaystyle {\begin{aligned}&\log \Gamma (\eta +1)\\&+(\eta +1)\log 2\end{aligned}}} log Γ ( ν 2 ) + ν 2 log 2 {\displaystyle {\begin{aligned}&\log \Gamma {\left({\tfrac {\nu }{2}}\right)}\\&+{\tfrac {\nu }{2}}\log 2\end{aligned}}} 正規分布の 既知の分散 μ {\displaystyle \mu } μ σ {\displaystyle {\frac {\mu }{\sigma }}} σ η {\displaystyle \sigma \eta } e − x 2 / ( 2 σ 2 ) 2 π σ {\displaystyle {\frac {e^{-x^{2}/(2\sigma ^{2})}}{{\sqrt {2\pi }}\sigma }}} x σ {\displaystyle {\frac {x}{\sigma }}} η 2 2 {\displaystyle {\frac {\eta ^{2}}{2}}} μ 2 2 σ 2 {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}} 連続ベルヌーイ分布 λ {\displaystyle \lambda } log λ 1 − λ {\displaystyle \log {\frac {\lambda }{1-\lambda }}} e η 1 + e η {\displaystyle {\frac {e^{\eta }}{1+e^{\eta }}}} 1 {\displaystyle 1} x {\displaystyle x} log e η − 1 η {\displaystyle \log {\frac {e^{\eta }-1}{\eta }}} log ( 1 − 2 λ 1 − λ ) − log 2 ( 1 λ − 1 ) {\displaystyle {\begin{aligned}&\log \left({\tfrac {1-2\lambda }{1-\lambda }}\right)\\[1ex]{}-{}&\log ^{2}\left({\tfrac {1}{\lambda }}-1\right)\end{aligned}}} ここで、 log 2 は反復対数 を表す。
正規分布 μ , σ 2 {\displaystyle \mu ,\ \sigma ^{2}} [ μ σ 2 − 1 2 σ 2 ] {\displaystyle {\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}} [ − η 1 2 η 2 − 1 2 η 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}} 1 2 π {\displaystyle {\frac {1}{\sqrt {2\pi }}}} [ x x 2 ] {\displaystyle {\begin{bmatrix}x\\x^{2}\end{bmatrix}}} − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})} μ 2 2 σ 2 + log σ {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma } 対数正規分布 μ , σ 2 {\displaystyle \mu ,\ \sigma ^{2}} [ μ σ 2 − 1 2 σ 2 ] {\displaystyle {\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}} [ − η 1 2 η 2 − 1 2 η 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}} 1 2 π x {\displaystyle {\frac {1}{{\sqrt {2\pi }}x}}} [ log x ( log x ) 2 ] {\displaystyle {\begin{bmatrix}\log x\\(\log x)^{2}\end{bmatrix}}} − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})} μ 2 2 σ 2 + log σ {\displaystyle {\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma } 逆ガウス分布 μ , λ {\displaystyle \mu ,\ \lambda } [ − λ 2 μ 2 − λ 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}} [ η 2 η 1 − 2 η 2 ] {\displaystyle {\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}} 1 2 π x 3 / 2 {\displaystyle {\frac {1}{{\sqrt {2\pi }}x^{3/2}}}} [ x 1 x ] {\displaystyle {\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}} − 2 η 1 η 2 − 1 2 log ( − 2 η 2 ) {\displaystyle -2{\sqrt {\eta _{1}\eta _{2}}}-{\tfrac {1}{2}}\log(-2\eta _{2})} − λ μ − 1 2 log λ {\displaystyle -{\tfrac {\lambda }{\mu }}-{\tfrac {1}{2}}\log \lambda } ガンマ分布 α , β {\displaystyle \alpha ,\ \beta } [ α − 1 − β ] {\displaystyle {\begin{bmatrix}\alpha -1\\-\beta \end{bmatrix}}} [ η 1 + 1 − η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}} 1 {\displaystyle 1} [ log x x ] {\displaystyle {\begin{bmatrix}\log x\\x\end{bmatrix}}} log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (\eta _{1}+1)\\{}-{}&(\eta _{1}+1)\log(-\eta _{2})\end{aligned}}} log Γ ( α ) β α {\displaystyle \log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}} k , θ {\displaystyle k,\ \theta } [ k − 1 − 1 θ ] {\displaystyle {\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}} [ η 1 + 1 − 1 η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}} log ( θ k Γ ( k ) ) {\displaystyle \log \left(\theta ^{k}\Gamma (k)\right)} 逆ガンマ分布 α , β {\displaystyle \alpha ,\ \beta } [ − α − 1 − β ] {\displaystyle {\begin{bmatrix}-\alpha -1\\-\beta \end{bmatrix}}} [ − η 1 − 1 − η 2 ] {\displaystyle {\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}} log Γ ( − η 1 − 1 ) + ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}} log Γ ( α ) β α {\displaystyle \log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}} 一般化逆ガウス分布 p , a , b {\displaystyle p,\ a,\ b} [ p − 1 − a / 2 − b / 2 ] {\displaystyle {\begin{bmatrix}p-1\\-a/2\\-b/2\end{bmatrix}}} [ η 1 + 1 − 2 η 2 − 2 η 3 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\-2\eta _{2}\\-2\eta _{3}\end{bmatrix}}} 1 {\displaystyle 1} [ log x x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\x\\{\frac {1}{x}}\end{bmatrix}}} log 2 K η 1 + 1 ( 4 η 2 η 3 ) − η 1 + 1 2 log η 2 η 3 {\displaystyle {\begin{aligned}&\log 2K_{\eta _{1}+1}{\!\left({\sqrt {4\eta _{2}\eta _{3}}}\right)}\\[2pt]{}-{}&{\frac {\eta _{1}+1}{2}}\log {\frac {\eta _{2}}{\eta _{3}}}\end{aligned}}} log 2 K p ( a b ) − p 2 log a b {\displaystyle {\begin{aligned}&\log 2K_{p}({\sqrt {ab}})\\[2pt]&{}-{\frac {p}{2}}\log {\frac {a}{b}}\end{aligned}}} 尺度逆カイ二乗分布 ν , σ 2 {\displaystyle \nu ,\ \sigma ^{2}} [ − ν 2 − 1 − ν σ 2 2 ] {\displaystyle {\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}} [ − 2 ( η 1 + 1 ) η 2 η 1 + 1 ] {\displaystyle {\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 x ] {\displaystyle {\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}} log Γ ( − η 1 − 1 ) + ( η 1 + 1 ) log ( − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\[2pt]+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}} log Γ ( ν 2 ) − ν 2 log ν σ 2 2 {\displaystyle {\begin{aligned}&\log \Gamma {\left({\frac {\nu }{2}}\right)}\\[2pt]{}-{}&{\frac {\nu }{2}}\log {\frac {\nu \sigma ^{2}}{2}}\end{aligned}}} ベータ分布 (バリアント1) α , β {\displaystyle \alpha ,\ \beta } [ α β ] {\displaystyle {\begin{bmatrix}\alpha \\\beta \end{bmatrix}}} [ η 1 η 2 ] {\displaystyle {\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}} 1 x ( 1 − x ) {\displaystyle {\frac {1}{x(1-x)}}} [ log x log ( 1 − x ) ] {\displaystyle {\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}} log Γ ( η 1 ) Γ ( η 2 ) Γ ( η 1 + η 2 ) {\displaystyle \log {\frac {\Gamma (\eta _{1})\,\Gamma (\eta _{2})}{\Gamma (\eta _{1}+\eta _{2})}}} log Γ ( α ) Γ ( β ) Γ ( α + β ) {\displaystyle \log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}} ベータ分布 (バリアント2) α , β {\displaystyle \alpha ,\ \beta } [ α − 1 β − 1 ] {\displaystyle {\begin{bmatrix}\alpha -1\\\beta -1\end{bmatrix}}} [ η 1 + 1 η 2 + 1 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\\eta _{2}+1\end{bmatrix}}} 1 {\displaystyle 1} [ log x log ( 1 − x ) ] {\displaystyle {\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}} log Γ ( η 1 + 1 ) Γ ( η 2 + 1 ) Γ ( η 1 + η 2 + 2 ) {\displaystyle \log {\frac {\Gamma (\eta _{1}+1)\,\Gamma (\eta _{2}+1)}{\Gamma (\eta _{1}+\eta _{2}+2)}}} log Γ ( α ) Γ ( β ) Γ ( α + β ) {\displaystyle \log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}} 多変量正規分布 μ , Σ {\displaystyle {\boldsymbol {\mu }},\ {\boldsymbol {\Sigma }}} [ Σ − 1 μ − 1 2 Σ − 1 ] {\displaystyle {\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}} [ − 1 2 η 2 − 1 η 1 − 1 2 η 2 − 1 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}} ( 2 π ) − k 2 {\displaystyle (2\pi )^{-{\frac {k}{2}}}} [ x x x T ] {\displaystyle {\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathsf {T}}\end{bmatrix}}} − 1 4 η 1 T η 2 − 1 η 1 − 1 2 log | − 2 η 2 | {\displaystyle {\begin{aligned}&-{\tfrac {1}{4}}{\boldsymbol {\eta }}_{1}^{\mathsf {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\&-{\tfrac {1}{2}}\log \left|-2{\boldsymbol {\eta }}_{2}\right|\end{aligned}}} 1 2 μ T Σ − 1 μ + 1 2 log | Σ | {\displaystyle {\begin{aligned}&{\tfrac {1}{2}}{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\+&{\tfrac {1}{2}}\log \left|{\boldsymbol {\Sigma }}\right|\end{aligned}}} カテゴリ分布 (バリアント1) p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ ∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 ⋮ log p k ] {\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}} [ e η 1 ⋮ e η k ] {\displaystyle {\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} どこ ∑ i = 1 k e η i = 1 {\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1} 1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} アイバーソン ブラケット [i] 0 {\displaystyle 0} 0 {\displaystyle 0} カテゴリ分布 (バリアント2) p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ ∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 + C ⋮ log p k + C ] {\displaystyle {\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}} 1 C [ e η 1 ⋮ e η k ] {\displaystyle {\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} どこ C = ∑ i = 1 k e η i {\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}} 1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} アイバーソン ブラケット [i] 0 {\displaystyle 0} 0 {\displaystyle 0} カテゴリ分布 (バリアント3) p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ p k = 1 − ∑ i = 1 k − 1 p i {\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}} [ log p 1 p k ⋮ log p k − 1 p k 0 ] {\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}} これは逆 ソフトマックス関数であり、 ロジット関数 の一般化です 。
1 C 1 [ e η 1 ⋮ e η k ] = {\displaystyle {\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=} 1 C 2 [ e η 1 ⋮ e η k − 1 1 ] {\displaystyle {\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}} ここで 、および 。 C 1 = ∑ i = 1 k e η i {\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}} C 2 = 1 + ∑ i = 1 k − 1 e η i {\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}
これは ロジスティック関数 の一般化である ソフトマックス関数 です。
1 {\displaystyle 1} [ [ x = 1 ] ⋮ [ x = k ] ] {\displaystyle {\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}} [ x = i ] {\displaystyle [x=i]} アイバーソン ブラケット [i] log ( ∑ i = 1 k e η i ) = log ( 1 + ∑ i = 1 k − 1 e η i ) {\displaystyle {\begin{aligned}&\textstyle \log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\={}&\textstyle \log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}} − log p k {\displaystyle -\log p_{k}} 試行回数 nが既知の 多項分布 (変種1) p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ ∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 ⋮ log p k ] {\displaystyle {\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}} [ e η 1 ⋮ e η k ] {\displaystyle {\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} どこ ∑ i = 1 k e η i = 1 {\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1} n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} 0 {\displaystyle 0} 0 {\displaystyle 0} 試行回数が既知の 多項分布 (変種2) n {\displaystyle n} p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ ∑ i = 1 k p i = 1 {\textstyle \sum \limits _{i=1}^{k}p_{i}=1} [ log p 1 + C ⋮ log p k + C ] {\displaystyle {\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}} 1 C [ e η 1 ⋮ e η k ] {\displaystyle {\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}} どこ C = ∑ i = 1 k e η i {\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}}
n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} 0 {\displaystyle 0} 0 {\displaystyle 0} 試行回数が既知の 多項分布 (変種3) n {\displaystyle n} p 1 , … , p k {\displaystyle p_{1},\ \ldots ,\,p_{k}} どこ p k = 1 − ∑ i = 1 k − 1 p i {\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}} [ log p 1 p k ⋮ log p k − 1 p k 0 ] {\displaystyle {\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}} 1 C 1 [ e η 1 ⋮ e η k ] = {\displaystyle {\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[10pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=} 1 C 2 [ e η 1 ⋮ e η k − 1 1 ] {\displaystyle {\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}}
どこで そして C 1 = ∑ i = 1 k e η i {\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}} C 2 = 1 + ∑ i = 1 k − 1 e η i {\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}
n ! ∏ i = 1 k x i ! {\displaystyle {\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}} [ x 1 ⋮ x k ] {\displaystyle {\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}} n log ( ∑ i = 1 k e η i ) = n log ( 1 + ∑ i = 1 k − 1 e η i ) {\displaystyle {\begin{aligned}&\textstyle n\log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\[4pt]={}&\textstyle n\log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}} − n log p k {\displaystyle -n\log p_{k}} ディリクレ分布 (変種1) α 1 , … , α k {\displaystyle \alpha _{1},\ \ldots ,\,\alpha _{k}} [ α 1 ⋮ α k ] {\displaystyle {\begin{bmatrix}\alpha _{1}\\\vdots \\\alpha _{k}\end{bmatrix}}} [ η 1 ⋮ η k ] {\displaystyle {\begin{bmatrix}\eta _{1}\\\vdots \\\eta _{k}\end{bmatrix}}} 1 ∏ i = 1 k x i {\displaystyle {\frac {1}{\prod \limits _{i=1}^{k}x_{i}}}} [ log x 1 ⋮ log x k ] {\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}} ∑ i = 1 k log Γ ( η i ) − log Γ ( ∑ i = 1 k η i ) {\displaystyle {\begin{aligned}\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i})\\\textstyle -\log \Gamma {\left(\sum \limits _{i=1}^{k}\eta _{i}\right)}\end{aligned}}} ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}} ディリクレ分布 (変種2) α 1 , … , α k {\displaystyle \alpha _{1},\ \ldots ,\,\alpha _{k}} [ α 1 − 1 ⋮ α k − 1 ] {\displaystyle {\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}} [ η 1 + 1 ⋮ η k + 1 ] {\displaystyle {\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}} 1 {\displaystyle 1} [ log x 1 ⋮ log x k ] {\displaystyle {\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}} ∑ i = 1 k log Γ ( η i + 1 ) − log Γ ( ∑ i = 1 k ( η i + 1 ) ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i}+1)\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}(\eta _{i}+1)\right)}\end{aligned}}} ∑ i = 1 k log Γ ( α i ) − log Γ ( ∑ i = 1 k α i ) {\displaystyle {\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}} ウィシャート分布 V , n {\displaystyle \mathbf {V} ,\ n} [ − 1 2 V − 1 n − p − 1 2 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n{-}p{-}1}{2}}\end{bmatrix}}} [ − 1 2 η 1 − 1 2 η 2 + p + 1 ] {\displaystyle {\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}} 1 {\displaystyle 1} [ X log | X | ] {\displaystyle {\begin{bmatrix}\mathbf {X} \\\log |\mathbf {X} |\end{bmatrix}}} − [ η 2 + p + 1 2 ] log | − η 1 | + log Γ p ( η 2 + p + 1 2 ) = − n 2 log | − η 1 | + log Γ p ( n 2 ) = [ η 2 + p + 1 2 ] log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) {\displaystyle {\begin{aligned}&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left({\tfrac {n}{2}}\right)}\\[1ex]={}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left(2^{p}\left|\mathbf {V} \right|\right)\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\end{aligned}}} 十分な統計量のモーメントを計算しやすくするために、異なるパラメータ化を持つ 3 つのバリアントが提供されています。
n 2 log ( 2 p | V | ) + log Γ p ( n 2 ) {\displaystyle {\begin{aligned}&{\frac {n}{2}}\log \left(2^{p}\left|\mathbf {V} \right|\right)\\[2pt]&+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\end{aligned}}} 注: 行列積 のトレース が ドット 積に よく似ている という事実を利用しています 。指数形式に挿入される行列パラメータは、 ベクトル化 (ベクトル内に配置される)されていると仮定されます。また、 と は対称なので、例えば tr ( A T B ) = vec ( A ) ⋅ vec ( B ) , {\displaystyle \operatorname {tr} (\mathbf {A} ^{\mathsf {T}}\mathbf {B} )=\operatorname {vec} (\mathbf {A} )\cdot \operatorname {vec} (\mathbf {B} ),} V {\displaystyle \mathbf {V} } X {\displaystyle \mathbf {X} } V T = V . {\displaystyle \mathbf {V} ^{\mathsf {T}}=\mathbf {V} \ .} 逆ウィシャート分布 Ψ , m {\displaystyle \mathbf {\Psi } ,\,m} − 1 2 [ Ψ m + p + 1 ] {\displaystyle -{\frac {1}{2}}{\begin{bmatrix}{\boldsymbol {\Psi }}\\[5pt]m{+}p{+}1\end{bmatrix}}} − [ 2 η 1 2 η 2 + p + 1 ] {\displaystyle -{\begin{bmatrix}2{\boldsymbol {\eta }}_{1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}} 1 {\displaystyle 1} [ X − 1 log | X | ] {\displaystyle {\begin{bmatrix}\mathbf {X} ^{-1}\\\log |\mathbf {X} |\end{bmatrix}}} [ η 2 + p + 1 2 ] log | − η 1 | + log Γ p ( − η 2 − p + 1 2 ) = − m 2 log | − η 1 | + log Γ p ( m 2 ) = − [ η 2 + p + 1 2 ] log 2 p | Ψ | + log Γ p ( − η 2 − p + 1 2 ) {\displaystyle {\begin{aligned}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {m}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|\\&+\log \Gamma _{p}{\left({\tfrac {m}{2}}\right)}\\[1ex]=&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log {\tfrac {2^{p}}{\left|{\boldsymbol {\Psi }}\right|}}\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\end{aligned}}} m 2 log 2 p | Ψ | + log Γ p ( m 2 ) {\displaystyle {\begin{aligned}{\frac {m}{2}}\log {\frac {2^{p}}{|{\boldsymbol {\Psi }}|}}\\[4pt]+\log \Gamma _{p}{\left({\frac {m}{2}}\right)}\end{aligned}}} 正規ガンマ分布 α , β , μ , λ {\displaystyle \alpha ,\ \beta ,\ \mu ,\ \lambda } [ α − 1 2 − β − λ μ 2 2 λ μ − λ 2 ] {\displaystyle {\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}} [ η 1 + 1 2 − η 2 + η 3 2 4 η 4 − η 3 2 η 4 − 2 η 4 ] {\displaystyle {\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}} 1 2 π {\displaystyle {\dfrac {1}{\sqrt {2\pi }}}} [ log τ τ τ x τ x 2 ] {\displaystyle {\begin{bmatrix}\log \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}} log Γ ( η 1 + 1 2 ) − 1 2 log ( − 2 η 4 ) − ( η 1 + 1 2 ) log ( η 3 2 4 η 4 − η 2 ) {\displaystyle {\begin{aligned}&\log \Gamma {\left(\eta _{1}+{\tfrac {1}{2}}\right)}\\[2pt]-{}&{\tfrac {1}{2}}\log \left(-2\eta _{4}\right)\\[2pt]-{}&\left(\eta _{1}+{\tfrac {1}{2}}\right)\log \left({\tfrac {\eta _{3}^{2}}{4\eta _{4}}}-\eta _{2}\right)\end{aligned}}} log Γ ( α ) − α log β − 1 2 log λ {\displaystyle {\begin{aligned}&\log \Gamma {\left(\alpha \right)}\\[2pt]&-\alpha \log \beta \\[2pt]&-{\tfrac {1}{2}}\log \lambda \end{aligned}}}
^ abc アイバーソン 括弧 は離散デルタ関数の一般化です。括弧で囲まれた式が真の場合、括弧の値は1です。括弧で囲まれた文が偽の場合、アイバーソン括弧の値は0です。波型括弧など、様々な表記法があります。⧙ a = b ⧘ は、上記の [ a = b ] 表記と同等です 。 カテゴリ分布 と 多項分布 の3つの変種は 、パラメータが制約されているという事実によるもので 、 p i {\displaystyle p_{i}}
∑ i = 1 k p i = 1 . {\displaystyle \sum _{i=1}^{k}p_{i}=1\,.}
したがって、独立したパラメータ のみが存在します。 k − 1 {\displaystyle k-1}
バリアント1では 、標準パラメータと自然パラメータの間に単純な関係を持つ自然パラメータを使用します。ただし、 自然パラメータのうち独立なのは 自然パラメータのみであり、自然パラメータの集合は 識別不可能 です。通常のパラメータに対する制約は、自然パラメータに対する同様の制約に変換されます。 k {\displaystyle k} k − 1 {\displaystyle k-1} k {\displaystyle k} バリアント2は、自然パラメータの集合全体が識別不可能であるという事実を示しています。自然パラメータに定数を加えても、得られる分布には影響がありません。しかし、自然パラメータに対する制約を用いることで、自然パラメータを用いた正規パラメータの式は、加えられる定数に依存しない形で記述することができます。 バリアント 3 では、 を設定することで、パラメータを便利な方法で識別可能にする方法を示します。 これにより、実質的に を中心に「ピボット」 し、最後の自然パラメータが定数値 0 を持つようになります。残りのすべての式は にアクセスしない方法で記述される ため、モデルには実質的に 通常の種類のパラメータと自然種類のパラメータのみが含まれます。 C = − log p k . {\displaystyle C=-\log p_{k}\ .} p k {\displaystyle p_{k}} p k {\displaystyle p_{k}} k − 1 {\displaystyle k-1} 変形 1 と 2 は、実際には標準的な指数族ではありません。むしろ、これらは 曲がった指数族 、つまり、 次元のパラメータ空間に埋め込まれた独立パラメータ があります 。 [13] 指数族の標準的な結果の多くは、曲がった指数族には適用されません。一例として、対数分割関数 があり 、これは、曲線の場合に 0 の値を持ちます。標準的な指数族では、この関数 の導関数は、平均や分散などの十分な統計量のモーメント(より技術的には、 キュムラント )に対応します。ただし、 の値が 0 である場合、すべての十分な統計量の平均と分散が一様に 0 であることを示しますが、実際には 番目の 十分な統計量の平均は である必要があります 。(変形 3 で示されている の形式を使用すると、これは正しく現れます 。) k − 1 {\displaystyle k-1} k {\displaystyle k} A ( x ) {\displaystyle A(x)} i {\displaystyle i} p i {\displaystyle p_{i}} A ( x ) {\displaystyle A(x)}
十分統計量のモーメントとキュムラント
分布の正規化 まず、確率分布の正規化から始めます。一般に、確率分布の 核( x への依存性をすべて符号化する部分) として機能する任意の非負関数 f ( x )は、 正規化する ことで適切な分布にすることができます 。すなわち、
p ( x ) = 1 Z f ( x ) {\displaystyle p(x)={\frac {1}{Z}}f(x)}
どこ
Z = ∫ x f ( x ) d x . {\displaystyle Z=\int _{x}f(x)\,dx.}
係数 Z は、統計物理学 との類似性に基づいて、 正規化関数 または パーティション関数 と呼ばれることもあります 。
指数族の場合、 p ( x ; η ) = g ( η ) h ( x ) e η ⋅ T ( x ) , {\displaystyle p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},}
カーネルは 、パーティション関数は K ( x ) = h ( x ) e η ⋅ T ( x ) {\displaystyle K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}} Z = ∫ x h ( x ) e η ⋅ T ( x ) d x . {\displaystyle Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.}
分布は正規化する必要があるので、
1 = ∫ x g ( η ) h ( x ) e η ⋅ T ( x ) d x = g ( η ) ∫ x h ( x ) e η ⋅ T ( x ) d x = g ( η ) Z . {\displaystyle {\begin{aligned}1&=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\&=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\[1ex]&=g({\boldsymbol {\eta }})Z.\end{aligned}}}
言い換えれば、 あるいは同等に g ( η ) = 1 Z {\displaystyle g({\boldsymbol {\eta }})={\frac {1}{Z}}} A ( η ) = − log g ( η ) = log Z . {\displaystyle A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.}
これにより、 A を 対数 正規化関数 または 対数パーティション関数 と呼ぶことが正当化されます。
十分統計量のモーメント生成関数 さて、 T ( x ) の モーメント生成関数 は
M T ( u ) ≡ E [ exp ( u T T ( x ) ) ∣ η ] = ∫ x h ( x ) exp [ ( η + u ) T T ( x ) − A ( η ) ] d x = e A ( η + u ) − A ( η ) {\displaystyle {\begin{aligned}M_{T}(u)&\equiv \operatorname {E} \left[\exp \left(u^{\mathsf {T}}T(x)\right)\mid \eta \right]\\&=\int _{x}h(x)\,\exp \left[(\eta +u)^{\mathsf {T}}T(x)-A(\eta )\right]\,dx\\[1ex]&=e^{A(\eta +u)-A(\eta )}\end{aligned}}}
前述の主張を証明する
K ( u ∣ η ) = A ( η + u ) − A ( η ) {\displaystyle K(u\mid \eta )=A(\eta +u)-A(\eta )}
はT の キュムラント生成関数 です 。
指数族の重要なサブクラスは 自然指数族であり、これは x の分布のモーメント生成関数と同様の形式を持ちます 。
キュムラントの微分恒等式 特に、キュムラント生成関数の性質を利用して、
E ( T j ) = ∂ A ( η ) ∂ η j {\displaystyle \operatorname {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}}
そして
cov ( T i , T j ) = ∂ 2 A ( η ) ∂ η i ∂ η j . {\displaystyle \operatorname {cov} \left(T_{i},\,T_{j}\right)={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.}
これらの2つの恒等式から、最初の2つの生モーメントとすべての混合2次モーメントを復元できます。高次のモーメントとキュムラントは、高階微分によって得られます。この手法は、 Tが データの複雑な関数であり、積分によるモーメントの計算が困難な場合によく役立ちます。
これをキュムラント 理論に頼らずに理解する別の方法は、 指数分布族の分布は正規化され、微分化されなければならないという事実から始めることです。ここでは1次元パラメータの単純な例を用いて説明しますが、より一般的にも同様の導出が成り立ちます。
1次元の場合、 p ( x ) = g ( η ) h ( x ) e η T ( x ) . {\displaystyle p(x)=g(\eta )h(x)e^{\eta T(x)}.}
これを正規化する必要があるので
1 = ∫ x p ( x ) d x = ∫ x g ( η ) h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) e η T ( x ) d x . {\displaystyle 1=\int _{x}p(x)\,dx=\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx=g(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx.}
両辺を ηについて 微分 します 。
0 = g ( η ) d d η ∫ x h ( x ) e η T ( x ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) ( d d η e η T ( x ) ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = g ( η ) ∫ x h ( x ) e η T ( x ) T ( x ) d x + g ′ ( η ) ∫ x h ( x ) e η T ( x ) d x = ∫ x T ( x ) g ( η ) h ( x ) e η T ( x ) d x + g ′ ( η ) g ( η ) ∫ x g ( η ) h ( x ) e η T ( x ) d x = ∫ x T ( x ) p ( x ) d x + g ′ ( η ) g ( η ) ∫ x p ( x ) d x = E [ T ( x ) ] + g ′ ( η ) g ( η ) = E [ T ( x ) ] + d d η log g ( η ) {\displaystyle {\begin{aligned}0&=g(\eta ){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)g(\eta )h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}p(x)\,dx\\[1ex]&=\operatorname {E} [T(x)]+{\frac {g'(\eta )}{g(\eta )}}\\[1ex]&=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta )\end{aligned}}}
したがって、 E [ T ( x ) ] = − d d η log g ( η ) = d d η A ( η ) . {\displaystyle \operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta )={\frac {d}{d\eta }}A(\eta ).}
例1 入門例として、 次のように定義される ガンマ分布を考えてみましょう。
p ( x ) = β α Γ ( α ) x α − 1 e − β x . {\displaystyle p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.}
上の表を参照すると、自然パラメータは次のように与えられることがわかります。
η 1 = α − 1 , η 2 = − β , {\displaystyle {\begin{aligned}\eta _{1}&=\alpha -1,\\\eta _{2}&=-\beta ,\end{aligned}}}
逆置換は
α = η 1 + 1 , β = − η 2 , {\displaystyle {\begin{aligned}\alpha &=\eta _{1}+1,\\\beta &=-\eta _{2},\end{aligned}}}
十分な統計量は (log x , x) であり、対数分割関数は
A ( η 1 , η 2 ) = log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) . {\displaystyle A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).}
十分統計量の平均は次のように求めることができます。まず、 η 1 について:
E [ log x ] = ∂ ∂ η 1 A ( η 1 , η 2 ) = ∂ ∂ η 1 [ log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) ] = ψ ( η 1 + 1 ) − log ( − η 2 ) = ψ ( α ) − log β , {\displaystyle {\begin{aligned}\operatorname {E} [\log x]&={\frac {\partial }{\partial \eta _{1}}}A(\eta _{1},\eta _{2})\\[0.5ex]&={\frac {\partial }{\partial \eta _{1}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=\psi (\eta _{1}+1)-\log(-\eta _{2})\\[1ex]&=\psi (\alpha )-\log \beta ,\end{aligned}}}
ここで 、 は ディガンマ関数 (対数ガンマの導関数) であり、最後のステップでは逆置換を使用しました。 ψ ( x ) {\displaystyle \psi (x)}
さて、 η 2 について:
E [ x ] = ∂ ∂ η 2 A ( η 1 , η 2 ) = ∂ ∂ η 2 [ log Γ ( η 1 + 1 ) − ( η 1 + 1 ) log ( − η 2 ) ] = − ( η 1 + 1 ) 1 − η 2 ( − 1 ) = η 1 + 1 − η 2 = α β , {\displaystyle {\begin{aligned}\operatorname {E} [x]&={\frac {\partial }{\partial \eta _{2}}}A(\eta _{1},\eta _{2})\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}={\frac {\alpha }{\beta }},\end{aligned}}}
最後のステップで再び逆の置換を行います。
x の分散を計算するには 、もう一度微分するだけです。
Var ( x ) = ∂ 2 ∂ η 2 2 A ( η 1 , η 2 ) = ∂ ∂ η 2 η 1 + 1 − η 2 = η 1 + 1 η 2 2 = α β 2 . {\displaystyle {\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}}{\partial \eta _{2}^{2}}}A{\left(\eta _{1},\eta _{2}\right)}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\[1ex]&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}}
これらの計算はすべて、ガンマ関数 のさまざまな特性を利用して積分によって実行できます が、これにはかなりの作業が必要になります。
例2 別の例として、密度を持つ 実数値確率変数 Xを考える。
p θ ( x ) = θ e − x ( 1 + e − x ) θ + 1 {\displaystyle p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}}
形状パラメータでインデックス付けされた分布 (これは 歪ロジスティック分布 と呼ばれる)。密度は次のように書き直すことができる。 θ ∈ ( 0 , ∞ ) {\displaystyle \theta \in (0,\infty )}
e − x 1 + e − x exp [ − θ log ( 1 + e − x ) + log ( θ ) ] {\displaystyle {\frac {e^{-x}}{1+e^{-x}}}\exp[-\theta \log \left(1+e^{-x})+\log(\theta )\right]}
これは自然パラメータを持つ指数族であることに注意する
η = − θ , {\displaystyle \eta =-\theta ,}
十分な統計量
T = log ( 1 + e − x ) , {\displaystyle T=\log \left(1+e^{-x}\right),}
および対数分割関数
A ( η ) = − log ( θ ) = − log ( − η ) {\displaystyle A(\eta )=-\log(\theta )=-\log(-\eta )}
最初のアイデンティティを使って、
E [ log ( 1 + e − X ) ] = E ( T ) = ∂ A ( η ) ∂ η = ∂ ∂ η [ − log ( − η ) ] = 1 − η = 1 θ , {\displaystyle \operatorname {E} \left[\log \left(1+e^{-X}\right)\right]=\operatorname {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},}
そして2番目のアイデンティティを使って
var [ log ( 1 + e − X ) ] = ∂ 2 A ( η ) ∂ η 2 = ∂ ∂ η [ 1 − η ] = 1 ( − η ) 2 = 1 θ 2 . {\displaystyle \operatorname {var} \left[\log \left(1+e^{-X}\right)\right]={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{{\left(-\eta \right)}^{2}}}={\frac {1}{\theta ^{2}}}.}
この例は、この方法を使用するのは非常に簡単ですが、直接計算するのはほぼ不可能であるケースを示しています。
例3 最後の例は、積分が非常に困難になるものです。これは、行列上で定義されるウィシャート分布 の場合です。微分を取ることさえ、 行列の計算 を伴うため少し難しいです が、それぞれの恒等式はこの記事に記載されています。
上の表から、自然パラメータは次のように与えられることがわかります。
η 1 = − 1 2 V − 1 , η 2 = − 1 2 ( n − p − 1 ) , {\displaystyle {\begin{aligned}{\boldsymbol {\eta }}_{1}&=-{\tfrac {1}{2}}\mathbf {V} ^{-1},\\\eta _{2}&={\hphantom {-}}{\tfrac {1}{2}}\left(n-p-1\right),\end{aligned}}}
逆置換は
V = − 1 2 η 1 − 1 , n = 2 η 2 + p + 1 , {\displaystyle {\begin{aligned}\mathbf {V} &=-{\tfrac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1},\\n&=2\eta _{2}+p+1,\end{aligned}}}
そして十分な統計量は ( X , log | X | ) . {\displaystyle (\mathbf {X} ,\log |\mathbf {X} |).}
対数分割関数は、微分と後退代入を容易にするために、表の中で様々な形で表記されています。ここでは以下の形式を使用します。
A ( η 1 , n ) = − n 2 log | − η 1 | + log Γ p ( n 2 ) , A ( V , η 2 ) = ( η 2 + p + 1 2 ) log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) . {\displaystyle {\begin{aligned}A({\boldsymbol {\eta }}_{1},n)&=-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)},\\[1ex]A(\mathbf {V} ,\eta _{2})&=\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}.\end{aligned}}}
X の期待値( η 1 に関連 ) η 1 に関して微分するには 、次の 行列計算の 恒等式が必要です。
∂ log | a X | ∂ X = ( X − 1 ) T {\displaystyle {\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\mathsf {T}}}
それから:
E [ X ] = ∂ ∂ η 1 A ( η 1 , … ) = ∂ ∂ η 1 [ − n 2 log | − η 1 | + log Γ p ( n 2 ) ] = − n 2 ( η 1 − 1 ) T = n 2 ( − η 1 − 1 ) T = n ( V ) T = n V {\displaystyle {\begin{aligned}\operatorname {E} [\mathbf {X} ]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}A\left({\boldsymbol {\eta }}_{1},\ldots \right)\\[1ex]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\right]\\[1ex]&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&=n(\mathbf {V} )^{\mathsf {T}}\\[1ex]&=n\mathbf {V} \end{aligned}}}
最後の行は、 V が対称的であるという事実を利用しており 、したがって転置しても同じになります。
log | X |の期待値( η 2 に関連 ) さて、 η 2 については、まず多変数ガンマ関数 を含む対数分割関数の部分を展開する必要があります 。
log Γ p ( a ) = log ( π p ( p − 1 ) 4 ∏ j = 1 p Γ ( a + 1 − j 2 ) ) = p ( p − 1 ) 4 log π + ∑ j = 1 p log Γ ( a + 1 − j 2 ) {\displaystyle {\begin{aligned}\log \Gamma _{p}(a)&=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma {\left(a+{\frac {1-j}{2}}\right)}\right)\\&={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma {\left(a+{\frac {1-j}{2}}\right)}\end{aligned}}}
ディガンマ関数 も必要です 。
ψ ( x ) = d d x log Γ ( x ) . {\displaystyle \psi (x)={\frac {d}{dx}}\log \Gamma (x).}
それから:
E [ log | X | ] = ∂ ∂ η 2 A ( … , η 2 ) = ∂ ∂ η 2 [ − ( η 2 + p + 1 2 ) log ( 2 p | V | ) + log Γ p ( η 2 + p + 1 2 ) ] = ∂ ∂ η 2 [ ( η 2 + p + 1 2 ) log ( 2 p | V | ) ] + ∂ ∂ η 2 [ p ( p − 1 ) 4 log π ] = + ∂ ∂ η 2 ∑ j = 1 p log Γ ( η 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( η 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( n − p − 1 2 + p + 1 2 + 1 − j 2 ) = p log 2 + log | V | + ∑ j = 1 p ψ ( n + 1 − j 2 ) {\displaystyle {\begin{aligned}\operatorname {E} [\log |\mathbf {X} |]&={\frac {\partial }{\partial \eta _{2}}}A\left(\ldots ,\eta _{2}\right)\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}\right]\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)\right]+{\frac {\partial }{\partial \eta _{2}}}\left[{\frac {p(p-1)}{4}}\log \pi \right]\\&{\hphantom {=}}+{\frac {\partial }{\partial \eta _{2}}}\sum _{j=1}^{p}\log \Gamma {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n-p-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n+1-j}{2}}\right)}\end{aligned}}}
この後者の式は ウィシャート分布の 記事に記載されています。これらの期待値は両方とも、 ウィシャート分布( 多変量正規分布 の 共役事前分布)を含む ベイズネットワークにおいて 変分ベイズ 更新方程式を導出する際に必要となります 。
これらの式を積分で計算するのははるかに困難です。例えば、最初の式では行列積分が必要になります。
エントロピ
相対エントロピー 指数分布族における2つの分布の相対エントロピー(カルバック・ライブラー・ダイバージェンス、KLダイバージェンス)は、対数正規化子に関する自然パラメータ間のブレグマン・ダイバージェンスとして簡単に表すことができます 。 [ 14 ] 相対 エントロピー は 積分で定義されるのに対し、ブレグマン・ダイバージェンスは微分と内積で定義されるため、計算が容易で、 閉じた形式 になります(微分が閉じた形式であると仮定)。さらに、自然パラメータと対数正規化子に関するブレグマン・ダイバージェンスは、凸 共役 関数の双対パラメータ(期待パラメータ)のブレグマン・ダイバージェンスと逆の順序で等しくなります。 [15]
対数正規化子 A {\displaystyle A} (凸共役 A ∗ {\displaystyle A^{*}} ) を使用して指数族を固定し、 この族内の分布を自然パラメータ の固定値に対応させて書き( 別の値を と書き、対応する双対期待値/モーメントパラメータを と書き)、 KL ダイバージェンスを KL 、ブレグマン ダイバージェンスを と書き、ダイバージェンスは次のように関係します。 P A , θ {\displaystyle P_{A,\theta }} θ {\displaystyle \theta } θ ′ {\displaystyle \theta '} η , η ′ {\displaystyle \eta ,\eta '} B A {\displaystyle B_{A}} KL ( P A , θ ∥ P A , θ ′ ) = B A ( θ ′ ∥ θ ) = B A ∗ ( η ∥ η ′ ) . {\displaystyle \operatorname {KL} (P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta )=B_{A^{*}}(\eta \parallel \eta ').}
KL ダイバージェンスは通常、最初の パラメータに関して記述されます が、ブレグマン ダイバージェンスは、通常、 2 番目の パラメータに関して記述されるため、これは「相対エントロピーは、交換された自然パラメータのログ正規化によって定義されるブレグマン ダイバージェンスに等しい」と読むことができます。または、「期待パラメータのログ正規化のデュアルによって定義されるブレグマン ダイバージェンスに等しい」と同等です。
最大エントロピー導出 指数族は、次のような質問に対する答えとして自然に生じます。 期待値に対する与えられた制約と一致する 最大エントロピー分布は何ですか?
確率分布 dF ( x ) の情報 エントロピーは、 他の確率分布(あるいはより一般的には正の測度)を基準としてのみ計算可能であり、両方の 測度は 互いに 絶対連続でなければならない。したがって、 dF ( x ) と同じ支持度を持つ 参照測度 dH ( x ) を選択する必要がある 。
dF ( x )の dH ( x ) に対する エントロピー は
S [ d F ∣ d H ] = − ∫ d F d H log d F d H d H {\displaystyle S[dF\mid dH]=-\int {\frac {dF}{dH}}\log {\frac {dF}{dH}}\,dH}
または
S [ d F ∣ d H ] = ∫ log d H d F d F {\displaystyle S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF}
ここで、 dF / dH と dH / dF はラドン・ニコディム微分 である 。集合 I に支持される離散分布のエントロピーの通常の定義は、
S = − ∑ i ∈ I p i log p i {\displaystyle S=-\sum _{i\in I}p_{i}\log p_{i}}
は、あまり指摘されないものの、 dHが I 上の 計数測度 として選択されること を前提としています 。
観測可能な量(確率変数)の集合 T iを考えてみましょう。T i の期待値がt i に等しい という条件のもとで、 dH に関するエントロピーが最大となる 確率分布 dF は、 dHを基準値とし、 ( T 1 , ..., T n ) を 十分統計量 とする指数 分布族となります。
導出は ラグランジュ乗数 を用いた単純な 変分計算である。正規化は、 T 0 = 1 を制約条件の一つとすることで課される。分布の自然パラメータはラグランジュ乗数であり、正規化係数は T 0 に関連付けられたラグランジュ乗数である 。
このような導出の例については、 「最大エントロピー確率分布」を 参照してください。
統計における役割
古典的な推定:十分性 ピットマン ・ クープマン ・ ダルモワの 定理 によれば 、推定されるパラメータによってドメインが変化しない確率分布の族の中で、指数族においてのみ、サンプルサイズが増加しても次元が制限されたままである 十分な統計量 が存在します。
もっと簡潔に言えば、 X k (ただし k = 1, 2, 3, ... n )が 独立かつ 同一分布に従う確率変数であるとする。これらの分布が指数 分布 族 のいずれかである場合にのみ、サンプルサイズ nの増加に伴って スカラー成分 の 数が 増加しない 十分な統計量 T ( X 1 , ..., X n ) が存在する。統計量 Tは ベクトル または 単一のスカラー数 である が、いずれの場合も、より多くのデータを取得してもその サイズは 増加も減少もしない。
反例として、これらの条件が緩和された場合、 一様分布 族( 離散分布 または 連続 分布で、いずれかまたは両方の境界が不明)には十分な統計量、つまりサンプル最大値、サンプル最小値、およびサンプルサイズがありますが、ドメインがパラメータによって変化するため、指数族を形成しません。
ベイズ推定:共役分布 指数族はベイズ統計 においても重要です 。ベイズ統計では、 事前分布に 尤度関数 を乗じ 、正規化することで 事後分布 を生成します。尤度が指数族に属する場合、 共役事前分布 が存在し、これもまた指数族に属することが多いです。指数族の パラメータに対する共役事前分布πは、 η {\displaystyle {\boldsymbol {\eta }}}
f ( x ∣ η ) = h ( x ) exp [ η T T ( x ) − A ( η ) ] {\displaystyle f(x\mid {\boldsymbol {\eta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right]}
は次のように与えられる。
p π ( η ∣ χ , ν ) = f ( χ , ν ) exp [ η T χ − ν A ( η ) ] , {\displaystyle p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}-\nu A({\boldsymbol {\eta }})\right],}
または同等
p π ( η ∣ χ , ν ) = f ( χ , ν ) g ( η ) ν exp ( η T χ ) , χ ∈ R s {\displaystyle p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,g({\boldsymbol {\eta }})^{\nu }\,\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}}
ここで 、s は の次元であり 、 および は ハイパーパラメータ (パラメータを制御するパラメータ)です。 は、 事前分布が寄与する観測値の有効数に対応し、 これらの疑似観測値がすべての観測値と疑似観測値にわたる 十分な統計 量に寄与する合計量に対応します。 は、残りの関数によって自動的に決定される 正規化定数 であり、指定された関数が 確率密度関数 である(つまり、 正規化され ている)ことを保証するために使用されます。 および は、 π が共役事前分布の定義と同じ関数であることと同等です。 η {\displaystyle {\boldsymbol {\eta }}} ν > 0 {\displaystyle \nu >0} χ {\displaystyle {\boldsymbol {\chi }}} ν {\displaystyle \nu } χ {\displaystyle {\boldsymbol {\chi }}} f ( χ , ν ) {\displaystyle f({\boldsymbol {\chi }},\nu )} A ( η ) {\displaystyle A({\boldsymbol {\eta }})} g ( η ) {\displaystyle g({\boldsymbol {\eta }})}
共役事前分布は、尤度と組み合わせて正規化されたときに、事前分布と同じタイプの事後分布を生成するものです。たとえば、二項分布の成功確率を推定する場合、事前分布としてベータ分布を使用することを選択すると、事後分布は別のベータ分布になります。これにより、事後分布の計算が特に簡単になります。同様に、ポアソン 分布 のパラメータを推定する場合、ガンマ事前分布を使用すると、別のガンマ事後分布が得られます。共役事前分布は多くの場合非常に柔軟で、非常に便利です。ただし、二項分布のシータパラメータの可能性のある値に関する確信が(たとえば)双峰性(2つの山を持つ)事前分布によって表される場合、これはベータ分布では表すことができません。ただし、事前分布として 混合密度(この場合は2つのベータ分布の組み合わせ)を使用することで表すことができます。これは、 超 事前分布の一種です 。
任意の尤度は指数分布族に属さないため、一般に共役事前分布は存在しません。その場合、事後分布は数値的手法によって計算する必要があります。
上記の事前分布が共役事前分布であることを示すために、事後分布を導出することができます。
まず、単一の観測値の確率が、その自然パラメータを使用してパラメータ化された指数族に従うと仮定します。
p F ( x ∣ η ) = h ( x ) g ( η ) exp [ η T T ( x ) ] {\displaystyle p_{F}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)\right]}
次に、データ の 尤度は次のように計算されます。 X = ( x 1 , … , x n ) {\displaystyle \mathbf {X} =(x_{1},\ldots ,x_{n})}
p ( X ∣ η ) = ( ∏ i = 1 n h ( x i ) ) g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) {\displaystyle p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)}
次に、上記の共役事前分布について、次のようになります。
p π ( η ∣ χ , ν ) = f ( χ , ν ) g ( η ) ν exp ( η T χ ) ∝ g ( η ) ν exp ( η T χ ) {\displaystyle {\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\end{aligned}}}
次に事後分布を次のように計算します。
p ( η ∣ X , χ , ν ) ∝ p ( X ∣ η ) p π ( η ∣ χ , ν ) = ( ∏ i = 1 n h ( x i ) ) g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) f ( χ , ν ) g ( η ) ν exp ( η T χ ) ∝ g ( η ) n exp ( η T ∑ i = 1 n T ( x i ) ) g ( η ) ν exp ( η T χ ) = g ( η ) ν + n exp ( η T ( χ + ∑ i = 1 n T ( x i ) ) ) {\displaystyle {\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&=g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}}
最後の行は 事後分布の 核であり、すなわち
p ( η ∣ X , χ , ν ) = p π ( η | χ + ∑ i = 1 n T ( x i ) , ν + n ) {\displaystyle p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )=p_{\pi }\left({\boldsymbol {\eta }}\left|~{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i}),\nu +n\right.\right)}
これは、事後分布が事前分布と同じ形式であることを示しています。
データ Xは 、次の式で のみこ の方程式に入ります。
T ( X ) = ∑ i = 1 n T ( x i ) , {\displaystyle \mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i}),}
これはデータの十分統計量 と呼ばれます 。つまり、十分統計量の値は事後分布を完全に決定するのに十分です。実際のデータポイント自体は必要ではなく、同じ十分統計量を持つすべてのデータポイントセットは同じ分布を持ちます。これは重要な点です。なぜなら、十分統計量の次元はデータサイズに応じて増加しないからです。つまり、十分統計量の要素数は、 (単一のデータポイントの分布のパラメータの数と同等に)要素数と同じだけだからです。 η {\displaystyle {\boldsymbol {\eta }}}
更新方程式は次のとおりです。
χ ′ = χ + T ( X ) = χ + ∑ i = 1 n T ( x i ) ν ′ = ν + n {\displaystyle {\begin{aligned}{\boldsymbol {\chi }}'&={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )\\&={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '&=\nu +n\end{aligned}}}
これは、更新方程式がデータ点の数と データの 十分な統計量で単純に記述できることを示しています。これは、 共役事前分布の ページに示されている更新方程式の様々な例で明確に示されています。十分な統計量の計算方法のため、必然的にデータの成分の和が含まれます(場合によっては積や他の形式として偽装されます。積は対数の和で記述できます ) 。特定の分布の更新方程式が上記の形式と完全に一致しない場合は、共役事前分布が上記の形式の共役事前分布を生成するものとは異なる パラメータ化 を使用して表現されている場合です。これは多くの場合、上記の形式が自然パラメータ上で定義されている のに対し、共役事前分布は通常、実パラメータ上で定義されるためです。 η {\displaystyle {\boldsymbol {\eta }}} θ . {\displaystyle {\boldsymbol {\theta }}.}
偏りのない推定 尤度が 指数族である場合、 の不偏推定量は である 。 [16] z | η ∼ e η z f 1 ( η ) f 0 ( z ) {\displaystyle z|\eta \sim e^{\eta z}f_{1}(\eta )f_{0}(z)} η {\displaystyle \eta } − d d z ln f 0 ( z ) {\displaystyle -{\frac {d}{dz}}\ln f_{0}(z)}
1パラメータ指数分布族は、 十分統計量 T ( x ) において単調な非減少尤度比を持ちます(ただし、 η ( θ )は非減少です)。したがって、 仮説 H 0 : θ ≥ θ 0 と H 1 : θ < θ 0 の検定 において、 一様に最も強力な検定法 が存在します 。
一般化線形モデル 指数分布族は、統計学で一般的に用いられる多くの回帰モデルを包含するモデルの一種である 一般化線形モデル (GLM)で使用される分布関数の基礎を形成します。例としては、 二項分布族を用いた ロジスティック回帰や ポアソン回帰など が挙げられます。
参照
参考文献
引用 ^ Kupperman, M. (1958). 「指数クラス母集団からのサンプリングにおける仮説確率と情報統計量」 Annals of Mathematical Statistics . 9 (2): 571– 575. doi : 10.1214/aoms/1177706633 . JSTOR 2237349. ^ Andersen, Erling (1970年9月). 「離散標本空間における十分性と指数族」. Journal of the American Statistical Association . 65 (331). Journal of the American Statistical Association: 1248– 1255. doi :10.2307/2284291. JSTOR 2284291. MR 0268992. ^ Pitman, E. ; Wishart, J. (1936). 「十分な統計量と本質的精度」. ケンブリッジ哲学協会数学紀要 . 32 (4): 567– 579. Bibcode :1936PCPS...32..567P. doi :10.1017/S0305004100019307. S2CID 120708376. ^ ダルモワ、G. (1935)。 「徹底的な確率推定」。 CRアカデミー。科学。パリ (フランス語)。 200 : 1265–1266 。 ^ Koopman, B. (1936). 「十分な統計量を許容する分布について」. アメリカ数学会誌 . 39 (3). アメリカ数学会誌 : 399–409 . doi : 10.2307/1989758 . JSTOR 1989758. MR 1501854. ^ 「一般指数族」 www.randomservices.org . 2022年8月30日 閲覧 。 ^ アブラモビッチ&リトフ(2013年) 『統計理論:簡潔な入門 』チャップマン&ホール、 ISBN 978-1439851845 。 ^ Blei, David. 「変分推論」 (PDF) プリンストン大学 ^ Casella, George (2002). 統計的推論 . Roger L. Berger (第2版). オーストラリア: Thomson Learning. 定理6.2.25. ISBN 0-534-24312-6 . OCLC 46538638。 ^ ブラウン、ローレンス・D. (1986). 統計的指数族の基礎:統計的決定理論への応用 . カリフォルニア州ヘイワード:数理統計研究所. 定理2.12. ISBN 0-940600-10-2 . OCLC 15986663。 ^ Keener, Robert W. (2010). 『理論統計:コアコースのトピックス 』 ニューヨーク. pp. 47, 例3.12. ISBN 978-0-387-93839-4 . OCLC 676700036。 {{cite book }}: CS1 maint: location missing publisher (link )^ ニールセン, フランク; ガルシア, ヴィンセント (2009). 「統計的指数関数族:フラッシュカード付きダイジェスト」. arXiv : 0911.4863 [cs.LG]. ^ van Garderen, Kees Jan (1997). 「計量経済学における曲線指数モデル」. 計量理論 . 13 (6): 771– 790. doi :10.1017/S0266466600006253. S2CID 122742807. ^ Nielsen & Nock 2010、4。指数族のブレグマンダイバージェンスと相対エントロピー。 ^ Barndorff-Nielsen 1978、9.1 凸双対性と指数族。 ^ エフロン、ブラッドリー(2011年12月)「トゥイーディーの公式と選択バイアス」 アメリカ統計学会誌 . 106 (496): 1602– 1614. doi :10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788 .
出典 バーンドルフ=ニールセン、オレ (1978年) 『統計理論における情報と指数族 』ワイリー確率・数理統計シリーズ、チチェスター:ジョン・ワイリー・アンド・サンズ社、9~238頁、 ISBN 0-471-99545-2 . MR 0489333。 バーンドルフ=ニールセン、オーレ(2014年) 『統計理論における情報と指数族』 として再版 。John Wiley & Sons, Ltd. doi :10.1002/9781118857281. ISBN 978-111885750-2 。 ニールセン, フランク; ガルシア, ヴィンセント (2009). 「統計的指数族:フラッシュカード付きダイジェスト」. arXiv : 0911.4863 . 書誌コード :2009arXiv0911.4863N. Nielsen, Frank; Nock, Richard (2010). 指数族のエントロピーとクロスエントロピー (PDF) . IEEE International Conference on Image Processing. doi :10.1109/ICIP.2010.5652054. オリジナル (PDF) から2019年3月31日にアーカイブ。
さらに読む
外部リンク 指数分布族の入門 指数分布族における数学用語の最も古い使用例 jMEF: 指数族のためのJavaライブラリ 2013年4月11日 archive.todayにアーカイブ ウェインライトとジョーダン著『グラフィカルモデル、指数族、変分推論』(2008年)
離散 一変数
連続 一変量
制限された間隔 でサポートされている 半無限 間隔 でサポートされている 実数直線 全体で サポートされている さまざまなタイプの サポート付き
混合 単変量
多変量 (ジョイント) 方向性 退化 と 特異性 家族