指数族

確率と統計において、指数分布族とは、以下に指定する特定の形式の確率分布のパラメータ集合である。この特殊な形式は、数学的な利便性（ユーザーが有用な代数的性質に基づく微分法を用いて期待値や共分散を計算できるようにするなど）と一般性を目的として選択された。指数分布族はある意味で非常に自然な分布集合であるためである。指数クラスという用語は、「指数族」 ^[1]や、より古い用語であるクープマン・ダルモワ族の代わりに使用されることがある。指数分布族と広く呼ばれることもあるこの分布のクラスは、いずれもさまざまな望ましい特性、最も重要なのは十分な統計量の存在を備えているという点で独特である。

指数分布族の概念は、 1935年から1936年にかけて^[2] EJG Pitman、^[3] G. Darmois、^[4]およびBO Koopman ^[5]によって提唱されました。指数分布族は、自然なパラメータを用いて、パラメトリック分布族の可能な代替パラメータ化を選択するための一般的な枠組みを提供し、また、その族の自然十分統計量と呼ばれる有用な標本統計量を定義するための枠組みを提供します。

命名法の難しさ

「分布」と「族」という用語は、しばしばあいまいに使用されます。具体的には、指数族は分布の集合であり、特定の分布はパラメータによって変化します。^[a]ただし、パラメトリックな分布族は「分布」と呼ばれることが多く(「正規分布」のように「正規分布の族」を意味します)、すべての指数族の集合は、あいまいに「その」指数族と呼ばれることもあります。

意味

一般的に用いられる分布のほとんどは、以下の節に列挙する指数分布族もしくは指数分布族の部分集合を形成します。それに続く節では、指数分布族のより一般的な数学的定義を順に示します。一般の読者は、最初の最も単純な定義、すなわち離散または連続確率分布の単一パラメータ族に対応する定義にのみ注目すると良いでしょう。

指数分布族の例

指数族には最も一般的な分布の多くが含まれます。中でも、指数族には以下のものが含まれます。^[6]

多くの一般的な分布は指数分布族ですが、特定のパラメータが固定され、既知である場合に限られます。例えば、

二項分布（試行回数を固定）
多項式（試行回数を固定）
負の二項分布（失敗回数が固定）

いずれの場合も、固定する必要があるパラメータは、観測可能な値の範囲に制限を設定するものであることに注意してください。

指数分布族ではない一般的な分布の例としては、スチューデントのt分布、ほとんどの混合分布、そして境界が固定されていない場合の一様分布族などが挙げられます。詳細については、以下の例のセクションを参照してください。

スカラーパラメータ

の値はファミリーのパラメータと呼ばれます。 $\theta$

単一パラメータ指数分布族は、確率密度関数（離散分布の場合は確率質量関数）が次の形式で表せる確率分布の集合である。

$f_{X}{\left(x\,{\big |}\,\theta \right)}=h(x)\,\exp \left[\eta (\theta )\cdot T(x)-A(\theta )\right]$

ここで $、T (x)$ 、 $h (x)$ 、 $η (θ)$ 、 $A (θ)$ は既知の関数です。関数 $h (x)$ は非負でなければなりません。

よく使われる代替形式としては、

$f_{X}{\left(x\ {\big |}\ \theta \right)}=h(x)\,g(\theta )\,\exp \left[\eta (\theta )\cdot T(x)\right]$

または同等

$f_{X}{\left(x\ {\big |}\ \theta \right)}=\exp \left[\eta (\theta )\cdot T(x)-A(\theta )+B(x)\right].$

対数確率の観点から見ると、 $\log(f_{X}{\left(x\ {\big |}\ \theta \right)})=\eta (\theta )\cdot T(x)-A(\theta )+B(x).$

およびに注意してください。 $g(\theta )=e^{-A(\theta )}$ $h(x)=e^{B(x)}$

サポートは独立していなければならない $θ$

重要なのは、（より大きいの可能なすべての値）のサポート^が[7]に依存しないことが要求されることです。この要件は、パラメトリック分布族が指数分布族ではないことを除外するために使用できます。 $f_{X}{\left(x{\big |}\theta \right)}$ $x$ $f_{X}\!\left(x{\big |}\theta \right)$ $0$ $\theta ~.$

たとえば、パレート分布には、（最小値はスケールパラメータ）に対して定義される pdf があり、したがって、そのサポートの下限はとなります。のサポートはパラメータの値に依存するため、パレート分布族は、（少なくともが不明な場合は）指数分布族を形成しません。 $x\geq x_{\mathsf {m}}$ $x_{m}\ ,$ $x_{\mathsf {m}}~.$ $f_{\alpha ,x_{m}}\!(x)$ $x_{m}$

別の例:ベルヌーイ型分布 (二項分布、負の二項分布、幾何分布など) は、ベルヌーイ試行回数 $n$ が固定定数 (自由パラメータから除外) として扱われる場合にのみ指数クラスに含めることができます。これは、許容される試行回数によって、一連の試行で観測できる「成功」または「失敗」の数の制限が設定されるためです。 $\theta$

ベクトル値 $\times$ そして $θ$

多くの場合、は測定値のベクトルであり、その場合、の可能な値の空間から実数までの関数である可能性があります。 $x$ $T(x)$ $x$

より一般的には、とはそれぞれベクトル値を持つことができ、は実数値となります。ただし、曲線指数族については、以下のベクトルパラメータに関する議論を参照してください。 $\eta (\theta )$ $T(x)$ $\eta (\theta )\cdot T(x)$

標準定式化

ならば、指数族は標準形であると言われる。変換されたパラメータを定義することで、指数族を標準形に変換することは常に可能である。標準形は一意ではない。なぜなら、は任意の非ゼロ定数と乗算できるからである。ただし、 $T$ $($ $x$ $)$ にその定数の逆数を乗じるか、定数 $c$ をに加えて $h$ $($ $x$ $)$ をで乗じて相殺する。特別な場合であり、かつ $T$ $($ $x$ $) =$ $xである場合には、その族は$ 自然指数族と呼ばれる。 $\eta (\theta )=\theta \ ,$ $\eta =\eta (\theta )\ ,$ $\eta (\theta )$ $\eta (\theta )$ $\exp \left[{-c}\cdot T(x)\,\right]$ $\eta (\theta )=\theta$

がスカラーで、パラメータが 1 つしかない場合でも、関数とは、以下で説明するようにベクトルになることができます。 $x$ $\eta (\theta )$ $T(x)$

関数またはは、他の関数が選択されると自動的に決定されます。これは、分布が正規化される（領域全体で合計または積分すると1になる）ような形を取らなければならないためです。さらに、これらの関数はどちらも、が1対1関数でない場合でも、常にの関数として表すことができます。つまり、の2つ以上の異なる値がの同じ値に写像され、したがって逆変換することはできません。このような場合、の同じ値に写像されるすべての値は、とについても同じ値を持ちます。 $A(\theta )\ ,$ $g(\theta )\ ,$ $\eta \ ,$ $\eta (\theta )$ $\theta$ $\eta (\theta )\ ,$ $\eta (\theta )$ $\theta$ $\eta (\theta )$ $A(\theta )$ $g(\theta )~.$

関係する変数の因数分解

注目すべき重要な点、そしてすべての指数関数族の変種に共通する特徴は、パラメータと観測変数が、直接、あるいは指数演算のどちらかの部分（底または指数）において因数分解（それぞれが1種類の変数のみを含む積に分解）できる必要があるということです。一般的に、これは密度関数または質量関数を構成するすべての因子が、以下のいずれかの形式である必要があることを意味します。

${\begin{aligned}f(x),&&c^{f(x)},&&{[f(x)]}^{c},&&{[f(x)]}^{g(\theta )},&&{[f(x)]}^{h(x)g(\theta )},\\g(\theta ),&&c^{g(\theta )},&&{[g(\theta )]}^{c},&&{[g(\theta )]}^{f(x)},&&~~{\mathsf {or}}~~{[g(\theta )]}^{h(x)j(\theta )},\end{aligned}}$

ここで $、 f$ と $h は$ 観測された統計変数 $x$ の任意の関数です。 $g$ と $j は$ 分布の形状を定義する固定パラメータの任意の関数です。 $c$ $は任意の定数式（つまり、 x$ またはによって変化しない数値または式）です。 $\theta ,$ $\theta$

このような要因がいくつ出現できるかについては、さらに制限があります。例えば、次の2つの式があります。

${[f(x)g(\theta )]}^{h(x)j(\theta )},\qquad {[f(x)]}^{h(x)j(\theta )}{[g(\theta )]}^{h(x)j(\theta )},$

は同じ、つまり2つの「許容される」因数の積である。しかし、因数分解された形に書き直すと、

${\begin{aligned}{\left[f(x)g(\theta )\right]}^{h(x)j(\theta )}&={\left[f(x)\right]}^{h(x)j(\theta )}{\left[g(\theta )\right]}^{h(x)j(\theta )}\\[4pt]&=\exp \left\{{[h(x)\log f(x)]j(\theta )+h(x)[j(\theta )\log g(\theta )]}\right\},\end{aligned}}$

要求された形式では表現できないことがわかります。（ただし、この種の形式は曲線指数族のメンバーであり、指数に複数の因数分解された項を許容します。^{[引用が必要]}）

次のような表現がなぜ

${[f(x)]}^{g(\theta )}$

資格がある、 ${[f(x)]}^{g(\theta )}=e^{g(\theta )\log f(x)}$

したがって指数内部で因数分解されます。同様に、

${[f(x)]}^{h(x)g(\theta )}=e^{h(x)g(\theta )\log f(x)}=e^{[h(x)\log f(x)]g(\theta )}$

そして再び指数内で因数分解します。

両方のタイプの変数が含まれる合計で構成される因数（形式の因数など）は、この方法で因数分解することはできません（指数に直接出現する一部の場合を除く）。これが、たとえばコーシー分布やスチューデントの t 分布が指数族ではない理由です。 $1+f(x)g(\theta )$

ベクトルパラメータ

1つの実数パラメータによる定義は、 1つの実ベクトルパラメータに拡張できる。

${\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{s}\end{bmatrix}}^{\mathsf {T}}.$

確率密度関数（離散分布の場合は確率質量関数）が次のように書ける場合、分布族はベクトル指数分布族に属するという。

$f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left(\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(x)-A({\boldsymbol {\theta }})\right)~,$

あるいはより簡潔な形で言えば、

$f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }})\right]$

この形式では、合計をベクトル値関数と $T$ $($ $x$ $)の$ ドット積として表します。 ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$

よく見られる代替の同等の形式は

$f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]$

スカラー値の場合と同様に、指数族が標準形であるとは、

$\eta _{i}({\boldsymbol {\theta }})=\theta _{i}~,\quad \forall i\,.$

ベクトル指数族は、次の次元が成り立つとき、曲がっていると言われる。

${\boldsymbol {\theta }}\equiv {\begin{bmatrix}\theta _{1}&\theta _{2}&\cdots &\theta _{d}\end{bmatrix}}^{\mathsf {T}}$

ベクトルの次元より小さい

${\boldsymbol {\eta }}({\boldsymbol {\theta }})\equiv {\begin{bmatrix}\eta _{1}{\!({\boldsymbol {\theta }})}&\eta _{2}{\!({\boldsymbol {\theta }})}&\cdots &\eta _{s}{\!({\boldsymbol {\theta }})}\end{bmatrix}}^{\mathsf {T}}~.$

つまり、上記の確率密度関数の表現において、パラメータベクトルの次元 d がパラメータベクトルの関数数 s よりも小さい場合です。指数 $分布$ 族の最も一般的な分布は曲線ではなく $、$ 任意の指数分布族を扱うように設計された多くのアルゴリズムは、暗黙的または明示的に、分布が曲線ではないと仮定しています。

スカラー値パラメータの場合と同様に、他の関数が選択されれば、関数または等価な関数は正規化制約によって自動的に決定されます。が1対1でなくても、関数とは、自然パラメータの各値に対して分布が正規化されることを要求することで定義できます。これにより、標準形が得られます。 $A({\boldsymbol {\theta }})$ $g({\boldsymbol {\theta }})$ ${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ $A({\boldsymbol {\eta }})$ $g({\boldsymbol {\eta }})$ ${\boldsymbol {\eta }}$

$f_{X}(x\mid {\boldsymbol {\eta }})=h(x)\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right],$

または同等

$f_{X}(x\mid {\boldsymbol {\eta }})=h(x)g({\boldsymbol {\eta }})\exp \left[{\boldsymbol {\eta }}\cdot \mathbf {T} (x)\right].$

上記の形式は、の代わりにが使われることがあります。これらは全く同じ式であり、単にドット積の表記が異なるだけです。 ${\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)$ ${\boldsymbol {\eta }}\cdot \mathbf {T} (x)\,$

ベクトルパラメータ、ベクトル変数

単一のスカラー値確率変数のベクトルパラメータ形式は、ベクトル確率変数の結合分布をカバーするように簡単に拡張できる。結果として得られる分布は、スカラー値確率変数の分布の、スカラー $x$ の各出現をベクトルで置き換えたものと単純に同じである。

$\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{k}\end{bmatrix}}^{\mathsf {T}}.$

ランダム変数の次元 $k$ は、パラメータベクトルの次元 $d$ と一致する必要はなく、（曲線指数関数の場合）自然パラメータおよび十分な統計量 $T$ $（$ $x$ $）の次元$ $s$ と一致する必要もありません。 ${\boldsymbol {\eta }}$

この場合の分布は次のように表される。

$f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \!\left[\sum _{i=1}^{s}\eta _{i}({\boldsymbol {\theta }})T_{i}(\mathbf {x} )-A({\boldsymbol {\theta }})\right]$

あるいはもっと簡潔に言うと

$f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]$

あるいは

$f_{X}{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=g({\boldsymbol {\theta }})\,h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )\right]$

測度論的定式化

離散分布と連続分布の両方を網羅するために、累積分布関数(CDF)を使用します。

$H が$ 実変数の非減少関数であると仮定する。すると、に関するルベーグ・スティルチェス積分は、 $H$ によって生成される指数族の基準測度に関する積分となる。 $dH(\mathbf {x} )$

その指数族のどの要素も累積分布関数を持つ

$dF{\left(\mathbf {x} \mid {\boldsymbol {\theta }}\right)}=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~dH(\mathbf {x} )\,.$

$H (x)$ は参照測度のルベーグ・スティルチェス積分関数です $。参照測度が有限の場合、正規化することができ、 H$ は実際には確率分布の累積分布関数です $。Fが$ 参照測度（通常はルベーグ測度）に関して密度と絶対連続である、と書くことができます。この場合、 $H$ も絶対連続であり、と書くことができ、式は前の段落の式に簡約されます。F が離散の場合 $、$ H $は$ ステップ関数（ $F$ のサポート上にステップを持つ）です。 $f(x)$ $dx$ $dF(x)=f(x)\,dx$ $dH(x)=h(x)\,dx$

あるいは、確率測度を直接次のように書くこともできる。

$P\left(d\mathbf {x} \mid {\boldsymbol {\theta }}\right)=\exp \left[{\boldsymbol {\eta }}(\theta )\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\theta }})\right]~\mu (d\mathbf {x} )\,.$

何らかの参考尺として。 $\mu \,$

解釈

上記の定義において、関数 $T (x)$ 、 $η (θ)$ 、 $A (η)$ は任意のものでした。しかし、これらの関数は、結果として得られる確率分布において重要な解釈を持ちます。

$T (x)$ は分布の十分統計量です $。指数族の場合、十分統計量は、データx$ が未知のパラメータ値に関して提供するすべての情報を保持するデータの関数です。つまり、任意のデータセットと、尤度比は同じであり、 $T$ $($ $x$ $) =$ $T$ $($ $y$ $)$ で $あることを意味します。これは、 x$ と $y$ が互いに等しくない場合にも当てはまります $。 T$ $($ $x$ $)の次元は$ $θ$ のパラメータの数に等しく、パラメータ $θに関連するデータに関するすべての情報を包含します。$ 独立した同一分布のデータ観測セットの十分統計量は、個々の十分統計量の合計にすぎず、データが与えられた場合のパラメータの事後分布を記述するために必要なすべての情報をカプセル化します (したがって、パラメータの任意の推定値を導き出すために必要なすべての情報をカプセル化します)。 (この重要な特性については、以下でさらに説明します。) $x$ $y$ ${\frac {f(x;\theta _{1})}{f(x;\theta _{2})}}={\frac {f(y;\theta _{1})}{f(y;\theta _{2})}}$
$ηは$ 自然パラメータと呼ばれる。関数が積分可能な $η$ の値の集合は自然パラメータ空間と呼ばれる。自然パラメータ空間は常に凸であることが示される。 $f_{X}(x;\eta )$
$A (η)$ は対数分割関数^[b]は正規化係数の対数であるため、これがなければ確率分布は成り立ちません。 $f_{X}(x;\theta )$ $A(\eta )=\log \left(\int _{X}h(x)\,\exp \left[\eta (\theta )\cdot T(x)\right]\,dx\right)$

関数 $A$ はそれ自体が重要です。なぜなら、十分統計量 $T$ $($ $x$ $)の$ 平均、分散、その他のモーメントは、 $A$ $($ $η$ $) を$ 微分するだけで簡単に導出できるからです。例えば、 $log($ $x$ $)は$ ガンマ分布の十分統計量の成分の一つであるため、この分布のは $A$ $($ $η$ $)$ を用いて簡単に決定できます。技術的には、は十分統計量のキュムラント生成関数であるため、これは正しいと言えます。 $\operatorname {\mathcal {E}} [\log x]$ $K{\left(u\mid \eta \right)}=A(\eta +u)-A(\eta )\,,$

プロパティ

指数族には、統計解析に非常に役立つ多くの性質があります。多くの場合、指数族だけがこれらの性質を持つことが示されます。例：

指数族は、任意の量の独立した同一分布データを固定数の値で要約できる十分な統計量を持つ唯一の族です。（ピットマン・クープマン・ダルモワの定理）
指数族は共役事前分布を持ちます。これはベイズ統計における重要な特性です。
共役事前分布を持つ指数分布族確率変数の事後予測分布は常に閉じた形で表すことができます（指数分布族の正規化因子自体が閉じた形で表せる場合）。 ^[c]
変分ベイズの平均場近似（大規模ベイジアンネットワークの事後分布を近似するために使用される）では、共役事前分布を持つ指数族ノード（ベイジアンネットワークの文脈ではノードはランダム変数である）の事後分布を最もよく近似するものは、そのノードと同じ族に属する。^[8]

によって定義される指数族が与えられ、ここではパラメータ空間であり、となる。すると、 $f_{X}{\!(x\mid \theta )}=h(x)\exp \left[\theta \cdot T(x)-A(\theta )\right]$ $\Theta$ $\theta \in \Theta \subset \mathbb {R} ^{k}$

がにおいて空でない内部構造を持つ場合、任意のIIDサンプルが与えられれば、統計量はの完全統計量となる。^[9]^[10] $\Theta$ $\mathbb {R} ^{k}$ $X_{1},...,X_{n}\sim f_{X}$ ${\textstyle T(X_{1},\dots ,X_{n}):=\sum _{i=1}^{n}T(X_{i})}$ $\theta$
$T$ は、すべてのに対しての場合に限り、の最小統計量であり、のサポートにおいての場合、またはである。^[11] $\theta$ $\theta _{1},\theta _{2}\in \Theta$ $x_{1},x_{2}$ $X$ $(\theta _{1}-\theta _{2})\cdot [T(x_{1})-T(x_{2})]=0$ $\theta _{1}=\theta _{2}$ $x_{1}=x_{2}$

例

このセクションの例を検討する際には、「分布」が指数族であると言うことの意味についての上記の議論を思い出すことが重要です。特に、変化が許されるパラメータのセットが、「分布」が指数族であるかどうかを判断する上で重要であることを念頭に置いておくことが重要です。

正規分布、指数分布、対数正規分布、ガンマ分布、カイ二乗分布、ベータ分布、ディリクレ分布、ベルヌーイ分布、カテゴリ分布、ポアソン分布、幾何分布、逆ガウス分布、ALAAM 分布、フォンミーゼス分布、フォンミーゼスフィッシャー分布はすべて指数分布族です。

一部の分布は、パラメータの一部が固定されている場合にのみ指数分布族となります。最小値x _{mが固定されている}パレート分布族は指数分布族を形成します。試行回数nが固定されているものの確率パラメータが未知である二項分布および多項分布族は指数分布族です。失敗回数（停止時間パラメータとも呼ばれる）rが固定されている負の二項分布族は指数分布族です。ただし、上記の固定パラメータのいずれかが変化することを許容する場合、結果として得られる分布族は指数分布族ではありません。

前述のように、一般的な規則として、指数分布族の支持度は、その分布族内のすべてのパラメータ設定において一定でなければなりません。これが、上記のケース（例えば、試行回数が変化する二項分布、下限値が変化するパレート分布）が指数分布族ではない理由です。いずれの場合も、問題のパラメータが支持度に影響を与えます（特に、最小値または最大値の変化）。同様の理由から、離散一様分布も連続一様分布も、一方または両方の境界値が変化するため、指数分布族ではありません。

形状パラメータkを固定したワイブル分布は指数分布族です。これまでの例とは異なり、形状パラメータは支持点に影響を与えません。形状パラメータを変化させるとワイブル分布が指数分布ではなくなるのは、ワイブル分布の確率密度関数の特殊な形（指数の指数にkが現れる）によるものです。

一般に、他の分布の有限または無限混合から生じる分布（例えば、混合モデル密度や複合確率分布）は指数分布族ではありません。例としては、典型的なガウス混合モデルや、分布とそのパラメータの1つに関する事前分布を複合（つまり、無限混合）することで生じる多くの裾の重い分布（例えば、スチューデントの t 分布（ガンマ分布の精度事前分布で正規分布を複合）や、ベータ二項分布、ディリクレ多項分布）が挙げられます。指数分布族ではない分布の他の例としては、F分布、コーシー分布、超幾何分布、ロジスティック分布などがあります。

以下に、いくつかの有用な分布を指数族として表現した詳細な例を示します。

正規分布：平均は不明、分散は既知

$最初の例として、平均μ$ が未知で分散 $σ$ $2$ が既知の正規分布に従う確率変数を考える。確率密度関数は次のようになる。

$f_{\sigma }(x;\mu )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(x-\mu )^{2}/2\sigma ^{2}}.$

これは単一パラメータの指数族であり、次のように設定するとわかる。

${\begin{aligned}T_{\sigma }(x)&={\frac {x}{\sigma }},&h_{\sigma }(x)&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-x^{2}/2\sigma ^{2}},\\[4pt]A_{\sigma }(\mu )&={\frac {\mu ^{2}}{2\sigma ^{2}}},&\eta _{\sigma }(\mu )&={\frac {\mu }{\sigma }}.\end{aligned}}$

$σ = 1 の$ 場合、これは標準形となり、 $η (μ) = μ$ となります。

正規分布：平均と分散は不明

次に、平均と分散が未知の正規分布の場合を考えてみましょう。確率密度関数は次のようになります。

$f(y;\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(y-\mu )^{2}/2\sigma ^{2}}.$

これは指数族であり、次のように定義して標準形で表すことができます。

${\begin{aligned}h(y)&={\frac {1}{\sqrt {2\pi }}},&{\boldsymbol {\eta }}&=\left[{\frac {\mu }{\sigma ^{2}}},~-{\frac {1}{2\sigma ^{2}}}\right],\\T(y)&=\left(y,y^{2}\right)^{\mathsf {T}},&A({\boldsymbol {\eta }})&={\frac {\mu ^{2}}{2\sigma ^{2}}}+\log |\sigma |=-{\frac {\eta _{1}^{2}}{4\eta _{2}}}+{\frac {1}{2}}\log \left|{\frac {1}{2\eta _{2}}}\right|\end{aligned}}$

二項分布

離散指数分布族の例として、試行回数が既知の二項分布を考えてみましょう $。$ この分布の確率質量関数はです。これは等価的にと書け、二項分布が指数分布族であり、その自然パラメータはであることがわかります。このpの関数はlogitとして知られています。 $f(x)={\binom {n}{x}}p^{x}{\left(1-p\right)}^{n-x},\quad x\in \{0,1,2,\ldots ,n\}.$ $f(x)={\binom {n}{x}}\exp \left[x\log \left({\frac {p}{1-p}}\right)+n\log(1-p)\right],$ $\eta =\log {\frac {p}{1-p}}.$

分布表

以下の表は、いくつかの一般的な分布を自然パラメータを持つ指数分布族として書き直す方法を示しています。主要な指数分布族については、フラッシュカード^[12]を参照してください。

スカラー変数とスカラーパラメータの場合、形式は次のようになります。

$f_{X}(x\mid \theta )=h(x)\exp \left[\eta ({\theta })T(x)-A(\eta )\right]$

スカラー変数とベクトルパラメータの場合:

${\begin{aligned}f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\eta }})\right]\\[4pt]f_{X}(x\mid {\boldsymbol {\theta }})&=h(x)\,g({\boldsymbol {\theta }})\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)\right]\end{aligned}}$

ベクトル変数とベクトルパラメータの場合:

$f_{X}(\mathbf {x} \mid {\boldsymbol {\theta }})=h(\mathbf {x} )\,\exp \left[{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (\mathbf {x} )-A({\boldsymbol {\eta }})\right]$

上記の式は、対数分割関数を持つ指数関数族の関数形式を選択しています。これは、この関数を微分するだけで十分統計量のモーメントを簡単に計算できるためです。別の形式としては、この関数を自然パラメータではなく正規パラメータでパラメータ化するか、指数関数以外の因子を使用する方法があります。後者と前者の関係は次のとおりです。2 種類のパラメータを含む表現を変換するには、以下の式を使用して、一方のパラメータをもう一方のパラメータで表します。 $A({\boldsymbol {\eta }})$ ${\boldsymbol {\theta }}$ $g({\boldsymbol {\eta }})$ ${\begin{aligned}A({\boldsymbol {\eta }})&=-\log g({\boldsymbol {\eta }}),\\[2pt]g({\boldsymbol {\eta }})&=e^{-A({\boldsymbol {\eta }})}\end{aligned}}$

分布	パラメータ $θ$	自然パラメータ $η$	逆パラメータマッピング	基本測度 $h (x)$	十分な統計量 $T (x)$	対数分割 $A (η)$	対数分割 $A (θ)$
ベルヌーイ分布	$p$	$\log {\frac {p}{1-p}}$ これはロジット関数です。	${\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}$ これはロジスティック関数です。	$1$	$x$	$\log(1+e^{\eta })$	$-\log(1-p)$
試行回数が既知の二項分布 $n$	$p$	$\log {\frac {p}{1-p}}$	${\frac {1}{1+e^{-\eta }}}={\frac {e^{\eta }}{1+e^{\eta }}}$	${\binom {n}{x}}$	$x$	$n\log(1+e^{\eta })$	$-n\log(1-p)$
ポアソン分布	$\lambda$	$\log \lambda$	$e^{\eta }$	${\frac {1}{x!}}$	$x$	$e^{\eta }$	$\lambda$
失敗数が既知の負の二項分布 $r$	$p$	$\log(1-p)$	$1-e^{\eta }$	${\binom {x{+}r{-}1}{x}}$	$x$	$-r\log(1-e^{\eta })$	$-r\log(1-p)$
指数分布	$\lambda$	$-\lambda$	$-\eta$	$1$	$x$	$-\log(-\eta )$	$-\log \lambda$
最小値が既知のパレート分布 $x_{m}$	$\alpha$	$-\alpha -1$	$-1-\eta$	$1$	$\log x$	${\begin{aligned}&-\log(-1-\eta )\\&+(1+\eta )\log x_{\mathrm {m} }\end{aligned}}$	$-\log \left(\alpha x_{\mathrm {m} }^{\alpha }\right)$
形状 $kが既知の$ ワイブル分布	$\lambda$	$-{\frac {1}{\lambda ^{k}}}$	$(-\eta )^{-1/k}$	$x^{k-1}$	$x^{k}$	$\log \left(-{\frac {1}{\eta k}}\right)$	$\log {\frac {\lambda ^{k}}{k}}$
平均値が既知のラプラス分布 $\mu$	$b$	$-{\frac {1}{b}}$	$-{\frac {1}{\eta }}$	$1$	$\|x-\mu \|$	$\log \left(-{\frac {2}{\eta }}\right)$	$\log 2b$
カイ二乗分布	$\nu$	${\frac {\nu }{2}}-1$	$2(\eta +1)$	$e^{-x/2}$	$\log x$	${\begin{aligned}&\log \Gamma (\eta +1)\\&+(\eta +1)\log 2\end{aligned}}$	${\begin{aligned}&\log \Gamma {\left({\tfrac {\nu }{2}}\right)}\\&+{\tfrac {\nu }{2}}\log 2\end{aligned}}$
正規分布の既知の分散	$\mu$	${\frac {\mu }{\sigma }}$	$\sigma \eta$	${\frac {e^{-x^{2}/(2\sigma ^{2})}}{{\sqrt {2\pi }}\sigma }}$	${\frac {x}{\sigma }}$	${\frac {\eta ^{2}}{2}}$	${\frac {\mu ^{2}}{2\sigma ^{2}}}$
連続ベルヌーイ分布	$\lambda$	$\log {\frac {\lambda }{1-\lambda }}$	${\frac {e^{\eta }}{1+e^{\eta }}}$	$1$	$x$	$\log {\frac {e^{\eta }-1}{\eta }}$	${\begin{aligned}&\log \left({\tfrac {1-2\lambda }{1-\lambda }}\right)\\[1ex]{}-{}&\log ^{2}\left({\tfrac {1}{\lambda }}-1\right)\end{aligned}}$ ここで、 $log 2$ は反復対数を表す。
正規分布	$\mu ,\ \sigma ^{2}$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}x\\x^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma$
対数正規分布	$\mu ,\ \sigma ^{2}$	${\begin{bmatrix}{\dfrac {\mu }{\sigma ^{2}}}\\[1ex]-{\dfrac {1}{2\sigma ^{2}}}\end{bmatrix}}$	${\begin{bmatrix}-{\dfrac {\eta _{1}}{2\eta _{2}}}\\[1ex]-{\dfrac {1}{2\eta _{2}}}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x}}$	${\begin{bmatrix}\log x\\(\log x)^{2}\end{bmatrix}}$	$-{\frac {\eta _{1}^{2}}{4\eta _{2}}}-{\frac {1}{2}}\log(-2\eta _{2})$	${\frac {\mu ^{2}}{2\sigma ^{2}}}+\log \sigma$
逆ガウス分布	$\mu ,\ \lambda$	${\begin{bmatrix}-{\dfrac {\lambda }{2\mu ^{2}}}\\[15pt]-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}{\sqrt {\dfrac {\eta _{2}}{\eta _{1}}}}\\[15pt]-2\eta _{2}\end{bmatrix}}$	${\frac {1}{{\sqrt {2\pi }}x^{3/2}}}$	${\begin{bmatrix}x\\[5pt]{\dfrac {1}{x}}\end{bmatrix}}$	$-2{\sqrt {\eta _{1}\eta _{2}}}-{\tfrac {1}{2}}\log(-2\eta _{2})$	$-{\tfrac {\lambda }{\mu }}-{\tfrac {1}{2}}\log \lambda$
ガンマ分布	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha -1\\-\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-\eta _{2}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\end{bmatrix}}$	${\begin{aligned}&\log \Gamma (\eta _{1}+1)\\{}-{}&(\eta _{1}+1)\log(-\eta _{2})\end{aligned}}$	$\log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}$
ガンマ分布	$k,\ \theta$	${\begin{bmatrix}k-1\\[5pt]-{\dfrac {1}{\theta }}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\[5pt]-{\dfrac {1}{\eta _{2}}}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\end{bmatrix}}$		$\log \left(\theta ^{k}\Gamma (k)\right)$
逆ガンマ分布	$\alpha ,\ \beta$	${\begin{bmatrix}-\alpha -1\\-\beta \end{bmatrix}}$	${\begin{bmatrix}-\eta _{1}-1\\-\eta _{2}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}$	${\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}$	$\log {\frac {\Gamma (\alpha )}{\beta ^{\alpha }}}$
一般化逆ガウス分布	$p,\ a,\ b$	${\begin{bmatrix}p-1\\-a/2\\-b/2\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\-2\eta _{2}\\-2\eta _{3}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\x\\{\frac {1}{x}}\end{bmatrix}}$	${\begin{aligned}&\log 2K_{\eta _{1}+1}{\!\left({\sqrt {4\eta _{2}\eta _{3}}}\right)}\\[2pt]{}-{}&{\frac {\eta _{1}+1}{2}}\log {\frac {\eta _{2}}{\eta _{3}}}\end{aligned}}$	${\begin{aligned}&\log 2K_{p}({\sqrt {ab}})\\[2pt]&{}-{\frac {p}{2}}\log {\frac {a}{b}}\end{aligned}}$
尺度逆カイ二乗分布	$\nu ,\ \sigma ^{2}$	${\begin{bmatrix}-{\dfrac {\nu }{2}}-1\\[10pt]-{\dfrac {\nu \sigma ^{2}}{2}}\end{bmatrix}}$	${\begin{bmatrix}-2(\eta _{1}+1)\\[10pt]{\dfrac {\eta _{2}}{\eta _{1}+1}}\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\{\frac {1}{x}}\end{bmatrix}}$	${\begin{aligned}&\log \Gamma (-\eta _{1}-1)\\[2pt]+&\left(\eta _{1}+1\right)\log(-\eta _{2})\end{aligned}}$	${\begin{aligned}&\log \Gamma {\left({\frac {\nu }{2}}\right)}\\[2pt]{}-{}&{\frac {\nu }{2}}\log {\frac {\nu \sigma ^{2}}{2}}\end{aligned}}$
ベータ分布（バリアント1）	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha \\\beta \end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\eta _{2}\end{bmatrix}}$	${\frac {1}{x(1-x)}}$	${\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}$	$\log {\frac {\Gamma (\eta _{1})\,\Gamma (\eta _{2})}{\Gamma (\eta _{1}+\eta _{2})}}$	$\log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}$
ベータ分布（バリアント2）	$\alpha ,\ \beta$	${\begin{bmatrix}\alpha -1\\\beta -1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\eta _{2}+1\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x\\\log(1{-}x)\end{bmatrix}}$	$\log {\frac {\Gamma (\eta _{1}+1)\,\Gamma (\eta _{2}+1)}{\Gamma (\eta _{1}+\eta _{2}+2)}}$	$\log {\frac {\Gamma (\alpha )\,\Gamma (\beta )}{\Gamma (\alpha +\beta )}}$
多変量正規分布	${\boldsymbol {\mu }},\ {\boldsymbol {\Sigma }}$	${\begin{bmatrix}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\Sigma }}^{-1}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\[5pt]-{\frac {1}{2}}{\boldsymbol {\eta }}_{2}^{-1}\end{bmatrix}}$	$(2\pi )^{-{\frac {k}{2}}}$	${\begin{bmatrix}\mathbf {x} \\[5pt]\mathbf {x} \mathbf {x} ^{\mathsf {T}}\end{bmatrix}}$	${\begin{aligned}&-{\tfrac {1}{4}}{\boldsymbol {\eta }}_{1}^{\mathsf {T}}{\boldsymbol {\eta }}_{2}^{-1}{\boldsymbol {\eta }}_{1}\\&-{\tfrac {1}{2}}\log \left\|-2{\boldsymbol {\eta }}_{2}\right\|\end{aligned}}$	${\begin{aligned}&{\tfrac {1}{2}}{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\Sigma }}^{-1}{\boldsymbol {\mu }}\\+&{\tfrac {1}{2}}\log \left\|{\boldsymbol {\Sigma }}\right\|\end{aligned}}$
カテゴリ分布（バリアント1）	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle \sum \limits _{i=1}^{k}p_{i}=1}$	${\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}$	${\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ どこ ${\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1}$	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ アイバーソンブラケット^[i]	$0$	$0$
カテゴリ分布（バリアント2）	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle \sum \limits _{i=1}^{k}p_{i}=1}$	${\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}$	${\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ どこ ${\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}}$	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ アイバーソンブラケット^[i]	$0$	$0$
カテゴリ分布（バリアント3）	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}}$	${\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}$ これは逆ソフトマックス関数であり、ロジット関数の一般化です。	${\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=$ ${\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}$ ここで、および。 ${\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}}$ ${\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}$ これはロジスティック関数の一般化であるソフトマックス関数です。	$1$	${\begin{bmatrix}[x=1]\\\vdots \\{[x=k]}\end{bmatrix}}$ $[x=i]$ アイバーソンブラケット^[i]	${\begin{aligned}&\textstyle \log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\={}&\textstyle \log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}$	$-\log p_{k}$
試行回数 $nが既知の$ 多項分布（変種1）	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle \sum \limits _{i=1}^{k}p_{i}=1}$	${\begin{bmatrix}\log p_{1}\\\vdots \\\log p_{k}\end{bmatrix}}$	${\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ どこ ${\textstyle \sum \limits _{i=1}^{k}e^{\eta _{i}}=1}$	${\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$0$	$0$
試行回数が既知の多項分布（変種2） $n$	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle \sum \limits _{i=1}^{k}p_{i}=1}$	${\begin{bmatrix}\log p_{1}+C\\\vdots \\\log p_{k}+C\end{bmatrix}}$	${\frac {1}{C}}{\begin{bmatrix}e^{\eta _{1}}\\\vdots \\e^{\eta _{k}}\end{bmatrix}}$ どこ ${\textstyle C=\sum \limits _{i=1}^{k}e^{\eta _{i}}}$	${\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	$0$	$0$
試行回数が既知の多項分布（変種3） $n$	$p_{1},\ \ldots ,\,p_{k}$ どこ ${\textstyle p_{k}=1-\sum \limits _{i=1}^{k-1}p_{i}}$	${\begin{bmatrix}\log {\dfrac {p_{1}}{p_{k}}}\\[10pt]\vdots \\[5pt]\log {\dfrac {p_{k-1}}{p_{k}}}\\[15pt]0\end{bmatrix}}$	${\frac {1}{C_{1}}}{\begin{bmatrix}e^{\eta _{1}}\\[10pt]\vdots \\[5pt]e^{\eta _{k}}\end{bmatrix}}=$ ${\frac {1}{C_{2}}}{\begin{bmatrix}e^{\eta _{1}}\\[5pt]\vdots \\[5pt]e^{\eta _{k-1}}\\[5pt]1\end{bmatrix}}$ どこでそして ${\textstyle C_{1}=\sum \limits _{i=1}^{k}e^{\eta _{i}}}$ ${\textstyle C_{2}=1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}}$	${\frac {n!}{\prod \limits _{i=1}^{k}x_{i}!}}$	${\begin{bmatrix}x_{1}\\\vdots \\x_{k}\end{bmatrix}}$	${\begin{aligned}&\textstyle n\log \left(\sum \limits _{i=1}^{k}e^{\eta _{i}}\right)\\[4pt]={}&\textstyle n\log \left(1+\sum \limits _{i=1}^{k-1}e^{\eta _{i}}\right)\end{aligned}}$	$-n\log p_{k}$
ディリクレ分布（変種1）	$\alpha _{1},\ \ldots ,\,\alpha _{k}$	${\begin{bmatrix}\alpha _{1}\\\vdots \\\alpha _{k}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}\\\vdots \\\eta _{k}\end{bmatrix}}$	${\frac {1}{\prod \limits _{i=1}^{k}x_{i}}}$	${\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}$	${\begin{aligned}\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i})\\\textstyle -\log \Gamma {\left(\sum \limits _{i=1}^{k}\eta _{i}\right)}\end{aligned}}$	${\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}$
ディリクレ分布（変種2）	$\alpha _{1},\ \ldots ,\,\alpha _{k}$	${\begin{bmatrix}\alpha _{1}-1\\\vdots \\\alpha _{k}-1\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+1\\\vdots \\\eta _{k}+1\end{bmatrix}}$	$1$	${\begin{bmatrix}\log x_{1}\\\vdots \\\log x_{k}\end{bmatrix}}$	${\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\eta _{i}+1)\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}(\eta _{i}+1)\right)}\end{aligned}}$	${\begin{aligned}&\textstyle \sum \limits _{i=1}^{k}\log \Gamma (\alpha _{i})\\{}-{}&\textstyle \log \Gamma {\left(\sum \limits _{i=1}^{k}\alpha _{i}\right)}\end{aligned}}$
ウィシャート分布	$\mathbf {V} ,\ n$	${\begin{bmatrix}-{\frac {1}{2}}\mathbf {V} ^{-1}\\[5pt]{\dfrac {n{-}p{-}1}{2}}\end{bmatrix}}$	${\begin{bmatrix}-{\frac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}$	$1$	${\begin{bmatrix}\mathbf {X} \\\log \|\mathbf {X} \|\end{bmatrix}}$	${\begin{aligned}&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left\|-{\boldsymbol {\eta }}_{1}\right\|\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {n}{2}}\log \left\|-{\boldsymbol {\eta }}_{1}\right\|\\&+\log \Gamma _{p}{\left({\tfrac {n}{2}}\right)}\\[1ex]={}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left(2^{p}\left\|\mathbf {V} \right\|\right)\\&+\log \Gamma _{p}{\left(\eta _{2}+{\tfrac {p+1}{2}}\right)}\end{aligned}}$ 十分な統計量のモーメントを計算しやすくするために、異なるパラメータ化を持つ 3 つのバリアントが提供されています。	${\begin{aligned}&{\frac {n}{2}}\log \left(2^{p}\left\|\mathbf {V} \right\|\right)\\[2pt]&+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\end{aligned}}$
ウィシャート分布	注：行列積のトレースがドット積によく似ているという事実を利用しています。指数形式に挿入される行列パラメータは、ベクトル化（ベクトル内に配置される）されていると仮定されます。また、とは対称なので、例えば $\operatorname {tr} (\mathbf {A} ^{\mathsf {T}}\mathbf {B} )=\operatorname {vec} (\mathbf {A} )\cdot \operatorname {vec} (\mathbf {B} ),$ $\mathbf {V}$ $\mathbf {X}$ $\mathbf {V} ^{\mathsf {T}}=\mathbf {V} \ .$
逆ウィシャート分布	$\mathbf {\Psi } ,\,m$	$-{\frac {1}{2}}{\begin{bmatrix}{\boldsymbol {\Psi }}\\[5pt]m{+}p{+}1\end{bmatrix}}$	$-{\begin{bmatrix}2{\boldsymbol {\eta }}_{1}\\[5pt]2\eta _{2}{+}p{+}1\end{bmatrix}}$	$1$	${\begin{bmatrix}\mathbf {X} ^{-1}\\\log \|\mathbf {X} \|\end{bmatrix}}$	${\begin{aligned}&\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log \left\|-{\boldsymbol {\eta }}_{1}\right\|\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\\[1ex]=&-{\tfrac {m}{2}}\log \left\|-{\boldsymbol {\eta }}_{1}\right\|\\&+\log \Gamma _{p}{\left({\tfrac {m}{2}}\right)}\\[1ex]=&-\left[\eta _{2}+{\tfrac {p+1}{2}}\right]\log {\tfrac {2^{p}}{\left\|{\boldsymbol {\Psi }}\right\|}}\\&+\log \Gamma _{p}{\left(-\eta _{2}-{\tfrac {p+1}{2}}\right)}\end{aligned}}$	${\begin{aligned}{\frac {m}{2}}\log {\frac {2^{p}}{\|{\boldsymbol {\Psi }}\|}}\\[4pt]+\log \Gamma _{p}{\left({\frac {m}{2}}\right)}\end{aligned}}$
正規ガンマ分布	$\alpha ,\ \beta ,\ \mu ,\ \lambda$	${\begin{bmatrix}\alpha -{\frac {1}{2}}\\-\beta -{\dfrac {\lambda \mu ^{2}}{2}}\\\lambda \mu \\-{\dfrac {\lambda }{2}}\end{bmatrix}}$	${\begin{bmatrix}\eta _{1}+{\frac {1}{2}}\\-\eta _{2}+{\dfrac {\eta _{3}^{2}}{4\eta _{4}}}\\-{\dfrac {\eta _{3}}{2\eta _{4}}}\\-2\eta _{4}\end{bmatrix}}$	${\dfrac {1}{\sqrt {2\pi }}}$	${\begin{bmatrix}\log \tau \\\tau \\\tau x\\\tau x^{2}\end{bmatrix}}$	${\begin{aligned}&\log \Gamma {\left(\eta _{1}+{\tfrac {1}{2}}\right)}\\[2pt]-{}&{\tfrac {1}{2}}\log \left(-2\eta _{4}\right)\\[2pt]-{}&\left(\eta _{1}+{\tfrac {1}{2}}\right)\log \left({\tfrac {\eta _{3}^{2}}{4\eta _{4}}}-\eta _{2}\right)\end{aligned}}$	${\begin{aligned}&\log \Gamma {\left(\alpha \right)}\\[2pt]&-\alpha \log \beta \\[2pt]&-{\tfrac {1}{2}}\log \lambda \end{aligned}}$

^ abc アイバーソン括弧は離散デルタ関数の一般化です。括弧で囲まれた式が真の場合、括弧の値は1です。括弧で囲まれた文が偽の場合、アイバーソン括弧の値は0です。波型括弧など、様々な表記法があります。⧙ $a$ $=$ $b$ $⧘$ $は、上記の$ $[a = b]$ 表記と同等です。

カテゴリ分布と多項分布の3つの変種は、パラメータが制約されているという事実によるもので、 $p_{i}$

$\sum _{i=1}^{k}p_{i}=1\,.$

したがって、独立したパラメータのみが存在します。 $k-1$

バリアント1では、標準パラメータと自然パラメータの間に単純な関係を持つ自然パラメータを使用します。ただし、自然パラメータのうち独立なのは自然パラメータのみであり、自然パラメータの集合は識別不可能です。通常のパラメータに対する制約は、自然パラメータに対する同様の制約に変換されます。 $k$ $k-1$ $k$
バリアント2は、自然パラメータの集合全体が識別不可能であるという事実を示しています。自然パラメータに定数を加えても、得られる分布には影響がありません。しかし、自然パラメータに対する制約を用いることで、自然パラメータを用いた正規パラメータの式は、加えられる定数に依存しない形で記述することができます。
バリアント 3 では、を設定することで、パラメータを便利な方法で識別可能にする方法を示します。これにより、実質的にを中心に「ピボット」し、最後の自然パラメータが定数値 0 を持つようになります。残りのすべての式はにアクセスしない方法で記述されるため、モデルには実質的に通常の種類のパラメータと自然種類のパラメータのみが含まれます。 $C=-\log p_{k}\ .$ $p_{k}$ $p_{k}$ $k-1$

変形 1 と 2 は、実際には標準的な指数族ではありません。むしろ、これらは曲がった指数族、つまり、次元のパラメータ空間に埋め込まれた独立パラメータがあります。^[13]指数族の標準的な結果の多くは、曲がった指数族には適用されません。一例として、対数分割関数があり、これは、曲線の場合に 0 の値を持ちます。標準的な指数族では、この関数の導関数は、平均や分散などの十分な統計量のモーメント（より技術的には、キュムラント）に対応します。ただし、の値が 0 である場合、すべての十分な統計量の平均と分散が一様に 0 であることを示しますが、実際には番目の十分な統計量の平均はである必要があります。（変形 3 で示されているの形式を使用すると、これは正しく現れます。） $k-1$ $k$ $A(x)$ $i$ $p_{i}$ $A(x)$

十分統計量のモーメントとキュムラント

分布の正規化

まず、確率分布の正規化から始めます。一般に、確率分布の核（ xへの依存性をすべて符号化する部分）として機能する任意の非負関数f ( x )は、正規化することで適切な分布にすることができます。すなわち、

$p(x)={\frac {1}{Z}}f(x)$

どこ

$Z=\int _{x}f(x)\,dx.$

係数 $Z$ は、統計物理学との類似性に基づいて、正規化関数またはパーティション関数と呼ばれることもあります。

指数族の場合、 $p(x;{\boldsymbol {\eta }})=g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)},$

カーネルは、パーティション関数は $K(x)=h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}$ $Z=\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx.$

分布は正規化する必要があるので、

${\begin{aligned}1&=\int _{x}g({\boldsymbol {\eta }})h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\&=g({\boldsymbol {\eta }})\int _{x}h(x)e^{{\boldsymbol {\eta }}\cdot \mathbf {T} (x)}\,dx\\[1ex]&=g({\boldsymbol {\eta }})Z.\end{aligned}}$

言い換えれば、あるいは同等に $g({\boldsymbol {\eta }})={\frac {1}{Z}}$ $A({\boldsymbol {\eta }})=-\log g({\boldsymbol {\eta }})=\log Z.$

これにより、 $A を$ 対数正規化関数または対数パーティション関数と呼ぶことが正当化されます。

十分統計量のモーメント生成関数

さて、 $T$ $($ $x$ $)$ のモーメント生成関数は

${\begin{aligned}M_{T}(u)&\equiv \operatorname {E} \left[\exp \left(u^{\mathsf {T}}T(x)\right)\mid \eta \right]\\&=\int _{x}h(x)\,\exp \left[(\eta +u)^{\mathsf {T}}T(x)-A(\eta )\right]\,dx\\[1ex]&=e^{A(\eta +u)-A(\eta )}\end{aligned}}$

前述の主張を証明する

$K(u\mid \eta )=A(\eta +u)-A(\eta )$

$はT$ のキュムラント生成関数です。

指数族の重要なサブクラスは自然指数族であり、これは $x$ の分布のモーメント生成関数と同様の形式を持ちます。

キュムラントの微分恒等式

特に、キュムラント生成関数の性質を利用して、

$\operatorname {E} (T_{j})={\frac {\partial A(\eta )}{\partial \eta _{j}}}$

そして

$\operatorname {cov} \left(T_{i},\,T_{j}\right)={\frac {\partial ^{2}A(\eta )}{\partial \eta _{i}\,\partial \eta _{j}}}.$

これらの2つの恒等式から、最初の2つの生モーメントとすべての混合2次モーメントを復元できます。高次のモーメントとキュムラントは、高階微分によって得られます。この手法は、 $Tが$ データの複雑な関数であり、積分によるモーメントの計算が困難な場合によく役立ちます。

これをキュムラント理論に頼らずに理解する別の方法は、指数分布族の分布は正規化され、微分化されなければならないという事実から始めることです。ここでは1次元パラメータの単純な例を用いて説明しますが、より一般的にも同様の導出が成り立ちます。

1次元の場合、 $p(x)=g(\eta )h(x)e^{\eta T(x)}.$

これを正規化する必要があるので

$1=\int _{x}p(x)\,dx=\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx=g(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx.$

両辺を $ηについて$ 微分します。

${\begin{aligned}0&=g(\eta ){\frac {d}{d\eta }}\int _{x}h(x)e^{\eta T(x)}\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)\left({\frac {d}{d\eta }}e^{\eta T(x)}\right)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=g(\eta )\int _{x}h(x)e^{\eta T(x)}T(x)\,dx+g'(\eta )\int _{x}h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)g(\eta )h(x)e^{\eta T(x)}\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}g(\eta )h(x)e^{\eta T(x)}\,dx\\[1ex]&=\int _{x}T(x)p(x)\,dx+{\frac {g'(\eta )}{g(\eta )}}\int _{x}p(x)\,dx\\[1ex]&=\operatorname {E} [T(x)]+{\frac {g'(\eta )}{g(\eta )}}\\[1ex]&=\operatorname {E} [T(x)]+{\frac {d}{d\eta }}\log g(\eta )\end{aligned}}$

したがって、 $\operatorname {E} [T(x)]=-{\frac {d}{d\eta }}\log g(\eta )={\frac {d}{d\eta }}A(\eta ).$

例1

入門例として、次のように定義されるガンマ分布を考えてみましょう。

$p(x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.$

上の表を参照すると、自然パラメータは次のように与えられることがわかります。

${\begin{aligned}\eta _{1}&=\alpha -1,\\\eta _{2}&=-\beta ,\end{aligned}}$

逆置換は

${\begin{aligned}\alpha &=\eta _{1}+1,\\\beta &=-\eta _{2},\end{aligned}}$

十分な統計量は $（log x, x）$ であり、対数分割関数は

$A(\eta _{1},\eta _{2})=\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2}).$

十分統計量の平均は次のように求めることができます。まず、 $η 1$ について：

${\begin{aligned}\operatorname {E} [\log x]&={\frac {\partial }{\partial \eta _{1}}}A(\eta _{1},\eta _{2})\\[0.5ex]&={\frac {\partial }{\partial \eta _{1}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=\psi (\eta _{1}+1)-\log(-\eta _{2})\\[1ex]&=\psi (\alpha )-\log \beta ,\end{aligned}}$

ここで、はディガンマ関数(対数ガンマの導関数) であり、最後のステップでは逆置換を使用しました。 $\psi (x)$

さて、 $η 2$ について：

${\begin{aligned}\operatorname {E} [x]&={\frac {\partial }{\partial \eta _{2}}}A(\eta _{1},\eta _{2})\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\log \Gamma (\eta _{1}+1)-(\eta _{1}+1)\log(-\eta _{2})\right]\\[1ex]&=-(\eta _{1}+1){\frac {1}{-\eta _{2}}}(-1)={\frac {\eta _{1}+1}{-\eta _{2}}}={\frac {\alpha }{\beta }},\end{aligned}}$

最後のステップで再び逆の置換を行います。

$x$ の分散を計算するには、もう一度微分するだけです。

${\begin{aligned}\operatorname {Var} (x)&={\frac {\partial ^{2}}{\partial \eta _{2}^{2}}}A{\left(\eta _{1},\eta _{2}\right)}={\frac {\partial }{\partial \eta _{2}}}{\frac {\eta _{1}+1}{-\eta _{2}}}\\[1ex]&={\frac {\eta _{1}+1}{\eta _{2}^{2}}}={\frac {\alpha }{\beta ^{2}}}.\end{aligned}}$

これらの計算はすべて、ガンマ関数のさまざまな特性を利用して積分によって実行できますが、これにはかなりの作業が必要になります。

例2

別の例として、密度を持つ実数値確率変数 $Xを考える。$

$p_{\theta }(x)={\frac {\theta e^{-x}}{\left(1+e^{-x}\right)^{\theta +1}}}$

形状パラメータでインデックス付けされた分布（これは歪ロジスティック分布と呼ばれる）。密度は次のように書き直すことができる。 $\theta \in (0,\infty )$

${\frac {e^{-x}}{1+e^{-x}}}\exp[-\theta \log \left(1+e^{-x})+\log(\theta )\right]$

これは自然パラメータを持つ指数族であることに注意する

$\eta =-\theta ,$

十分な統計量

$T=\log \left(1+e^{-x}\right),$

および対数分割関数

$A(\eta )=-\log(\theta )=-\log(-\eta )$

最初のアイデンティティを使って、

$\operatorname {E} \left[\log \left(1+e^{-X}\right)\right]=\operatorname {E} (T)={\frac {\partial A(\eta )}{\partial \eta }}={\frac {\partial }{\partial \eta }}[-\log(-\eta )]={\frac {1}{-\eta }}={\frac {1}{\theta }},$

そして2番目のアイデンティティを使って

$\operatorname {var} \left[\log \left(1+e^{-X}\right)\right]={\frac {\partial ^{2}A(\eta )}{\partial \eta ^{2}}}={\frac {\partial }{\partial \eta }}\left[{\frac {1}{-\eta }}\right]={\frac {1}{{\left(-\eta \right)}^{2}}}={\frac {1}{\theta ^{2}}}.$

この例は、この方法を使用するのは非常に簡単ですが、直接計算するのはほぼ不可能であるケースを示しています。

例3

最後の例は、積分が非常に困難になるものです。これは、行列上で定義されるウィシャート分布の場合です。微分を取ることさえ、行列の計算を伴うため少し難しいですが、それぞれの恒等式はこの記事に記載されています。

上の表から、自然パラメータは次のように与えられることがわかります。

${\begin{aligned}{\boldsymbol {\eta }}_{1}&=-{\tfrac {1}{2}}\mathbf {V} ^{-1},\\\eta _{2}&={\hphantom {-}}{\tfrac {1}{2}}\left(n-p-1\right),\end{aligned}}$

逆置換は

${\begin{aligned}\mathbf {V} &=-{\tfrac {1}{2}}{\boldsymbol {\eta }}_{1}^{-1},\\n&=2\eta _{2}+p+1,\end{aligned}}$

そして十分な統計量は $(\mathbf {X} ,\log |\mathbf {X} |).$

対数分割関数は、微分と後退代入を容易にするために、表の中で様々な形で表記されています。ここでは以下の形式を使用します。

${\begin{aligned}A({\boldsymbol {\eta }}_{1},n)&=-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)},\\[1ex]A(\mathbf {V} ,\eta _{2})&=\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}.\end{aligned}}$

$X$ の期待値（ $η 1$ に関連）

η₁に関して微分するには、次の行列計算の恒等式が必要です。

${\frac {\partial \log |a\mathbf {X} |}{\partial \mathbf {X} }}=(\mathbf {X} ^{-1})^{\mathsf {T}}$

それから：

${\begin{aligned}\operatorname {E} [\mathbf {X} ]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}A\left({\boldsymbol {\eta }}_{1},\ldots \right)\\[1ex]&={\frac {\partial }{\partial {\boldsymbol {\eta }}_{1}}}\left[-{\frac {n}{2}}\log \left|-{\boldsymbol {\eta }}_{1}\right|+\log \Gamma _{p}{\left({\frac {n}{2}}\right)}\right]\\[1ex]&=-{\frac {n}{2}}({\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&={\frac {n}{2}}(-{\boldsymbol {\eta }}_{1}^{-1})^{\mathsf {T}}\\[1ex]&=n(\mathbf {V} )^{\mathsf {T}}\\[1ex]&=n\mathbf {V} \end{aligned}}$

最後の行は、 Vが対称的であるという事実を利用しており、したがって転置しても同じになります。

log $| X |の期待値（$ $η 2$ に関連）

さて、 $η 2$ については、まず多変数ガンマ関数を含む対数分割関数の部分を展開する必要があります。

${\begin{aligned}\log \Gamma _{p}(a)&=\log \left(\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma {\left(a+{\frac {1-j}{2}}\right)}\right)\\&={\frac {p(p-1)}{4}}\log \pi +\sum _{j=1}^{p}\log \Gamma {\left(a+{\frac {1-j}{2}}\right)}\end{aligned}}$

ディガンマ関数も必要です。

$\psi (x)={\frac {d}{dx}}\log \Gamma (x).$

それから：

${\begin{aligned}\operatorname {E} [\log |\mathbf {X} |]&={\frac {\partial }{\partial \eta _{2}}}A\left(\ldots ,\eta _{2}\right)\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[-\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)+\log \Gamma _{p}{\left(\eta _{2}+{\frac {p+1}{2}}\right)}\right]\\[1ex]&={\frac {\partial }{\partial \eta _{2}}}\left[\left(\eta _{2}+{\frac {p+1}{2}}\right)\log \left(2^{p}\left|\mathbf {V} \right|\right)\right]+{\frac {\partial }{\partial \eta _{2}}}\left[{\frac {p(p-1)}{4}}\log \pi \right]\\&{\hphantom {=}}+{\frac {\partial }{\partial \eta _{2}}}\sum _{j=1}^{p}\log \Gamma {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left(\eta _{2}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n-p-1}{2}}+{\frac {p+1}{2}}+{\frac {1-j}{2}}\right)}\\[1ex]&=p\log 2+\log |\mathbf {V} |+\sum _{j=1}^{p}\psi {\left({\frac {n+1-j}{2}}\right)}\end{aligned}}$

この後者の式はウィシャート分布の記事に記載されています。これらの期待値は両方とも、ウィシャート分布（多変量正規分布の共役事前分布）を含むベイズネットワークにおいて変分ベイズ更新方程式を導出する際に必要となります。

これらの式を積分で計算するのははるかに困難です。例えば、最初の式では行列積分が必要になります。

エントロピ

相対エントロピー

指数分布族における2つの分布の相対エントロピー（カルバック・ライブラー・ダイバージェンス、KLダイバージェンス）は、対数正規化子に関する自然パラメータ間のブレグマン・ダイバージェンスとして簡単に表すことができます。[ 14 ]相対エントロピー^は積分で定義されるのに対し、ブレグマン・ダイバージェンスは微分と内積で定義されるため、計算が容易で、閉じた形式になります（微分が閉じた形式であると仮定）。さらに、自然パラメータと対数正規化子に関するブレグマン・ダイバージェンスは、凸共役関数の双対パラメータ（期待パラメータ）のブレグマン・ダイバージェンスと逆の順序で等しくなります。^[15]

対数正規化子⁠ ⁠ $A$ (凸共役⁠ ⁠ $A^{*}$ ) を使用して指数族を固定し、この族内の分布を自然パラメータ⁠ ⁠の固定値に対応させて書き(別の値を⁠ ⁠と書き、対応する双対期待値/モーメントパラメータを⁠ ⁠と書き)、 KL ダイバージェンスを $KL 、ブレグマンダイバージェンスを$ ⁠ ⁠と書き、ダイバージェンスは次のように関係します。 $P_{A,\theta }$ $\theta$ $\theta '$ $\eta ,\eta '$ $B_{A}$ $\operatorname {KL} (P_{A,\theta }\parallel P_{A,\theta '})=B_{A}(\theta '\parallel \theta )=B_{A^{*}}(\eta \parallel \eta ').$

KL ダイバージェンスは通常、最初のパラメータに関して記述されますが、ブレグマンダイバージェンスは、通常、2 番目のパラメータに関して記述されるため、これは「相対エントロピーは、交換された自然パラメータのログ正規化によって定義されるブレグマンダイバージェンスに等しい」と読むことができます。または、「期待パラメータのログ正規化のデュアルによって定義されるブレグマンダイバージェンスに等しい」と同等です。

最大エントロピー導出

指数族は、次のような質問に対する答えとして自然に生じます。期待値に対する与えられた制約と一致する最大エントロピー分布は何ですか?

確率分布 $dF$ $($ $x$ $)$ の情報エントロピーは、他の確率分布（あるいはより一般的には正の測度）を基準としてのみ計算可能であり、両方の測度は互いに絶対連続でなければならない。したがって、 $dF$ $($ $x$ $)$ と同じ支持度を持つ参照測度 $dH$ $($ $x$ $)$ を選択する必要がある。

$dF (x)の$ $dH (x)$ に対するエントロピーは

$S[dF\mid dH]=-\int {\frac {dF}{dH}}\log {\frac {dF}{dH}}\,dH$

または

$S[dF\mid dH]=\int \log {\frac {dH}{dF}}\,dF$

ここで、 $dF / dH$ と $dH / dF$ はラドン・ニコディム微分である。集合 $I$ に支持される離散分布のエントロピーの通常の定義は、

$S=-\sum _{i\in I}p_{i}\log p_{i}$

は、あまり指摘されないものの、 $dHが$ $I$ 上の計数測度として選択されることを前提としています。

観測可能な量（確率変数）の集合 $T iを考えてみましょう。T$ $i$ $の期待値がt$ $i$ に等しいという条件のもとで、 $dH$ に関するエントロピーが最大となる確率分布 $dF$ は、 dHを基準値とし、 $($ $T$ $1$ $, ...,$ $T$ $n$ $)$ $を$ 十分統計量とする指数分布族となります。

導出はラグランジュ乗数を用いた単純な変分計算である。正規化は、 $T$ $0$ $= 1$ を制約条件の一つとすることで課される。分布の自然パラメータはラグランジュ乗数であり、正規化係数は $T$ $0$ に関連付けられたラグランジュ乗数である。

このような導出の例については、「最大エントロピー確率分布」を参照してください。

統計における役割

古典的な推定：十分性

ピットマン・クープマン・ダルモワの定理によれば、推定されるパラメータによってドメインが変化しない確率分布の族の中で、指数族においてのみ、サンプルサイズが増加しても次元が制限されたままである十分な統計量が存在します。

もっと簡潔に言えば、 $X k$ （ただし $k = 1, 2, 3, ... n$ ）が独立かつ同一分布に従う確率変数であるとする。これらの分布が指数分布族のいずれかである場合にのみ、サンプルサイズnの増加に伴ってスカラー成分の数が増加しない十分な統計量 $T （ X 1, ..., X n ）$ が存在する。統計量 $Tは$ ベクトルまたは単一のスカラー数であるが、いずれの場合も、より多くのデータを取得してもそのサイズは増加も減少もしない。

反例として、これらの条件が緩和された場合、一様分布族（離散分布または連続分布で、いずれかまたは両方の境界が不明）には十分な統計量、つまりサンプル最大値、サンプル最小値、およびサンプルサイズがありますが、ドメインがパラメータによって変化するため、指数族を形成しません。

ベイズ推定：共役分布

指数族はベイズ統計においても重要です。ベイズ統計では、事前分布に尤度関数を乗じ、正規化することで事後分布を生成します。尤度が指数族に属する場合、共役事前分布が存在し、これもまた指数族に属することが多いです。指数族のパラメータに対する共役事前分布πは、 ${\boldsymbol {\eta }}$

$f(x\mid {\boldsymbol {\eta }})=h(x)\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)-A({\boldsymbol {\eta }})\right]$

は次のように与えられる。

$p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}-\nu A({\boldsymbol {\eta }})\right],$

または同等

$p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )=f({\boldsymbol {\chi }},\nu )\,g({\boldsymbol {\eta }})^{\nu }\,\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }}\right),\qquad {\boldsymbol {\chi }}\in \mathbb {R} ^{s}$

ここで、sはの次元であり、およびはハイパーパラメータ（パラメータを制御するパラメータ）です。は、事前分布が寄与する観測値の有効数に対応し、これらの疑似観測値がすべての観測値と疑似観測値にわたる十分な統計量に寄与する合計量に対応します。は、残りの関数によって自動的に決定される正規化定数であり、指定された関数が確率密度関数である（つまり、正規化されている）ことを保証するために使用されます。およびは、π が共役事前分布の定義と同じ関数であることと同等です。 ${\boldsymbol {\eta }}$ $\nu >0$ ${\boldsymbol {\chi }}$ $\nu$ ${\boldsymbol {\chi }}$ $f({\boldsymbol {\chi }},\nu )$ $A({\boldsymbol {\eta }})$ $g({\boldsymbol {\eta }})$

共役事前分布は、尤度と組み合わせて正規化されたときに、事前分布と同じタイプの事後分布を生成するものです。たとえば、二項分布の成功確率を推定する場合、事前分布としてベータ分布を使用することを選択すると、事後分布は別のベータ分布になります。これにより、事後分布の計算が特に簡単になります。同様に、ポアソン分布のパラメータを推定する場合、ガンマ事前分布を使用すると、別のガンマ事後分布が得られます。共役事前分布は多くの場合非常に柔軟で、非常に便利です。ただし、二項分布のシータパラメータの可能性のある値に関する確信が（たとえば）双峰性（2つの山を持つ）事前分布によって表される場合、これはベータ分布では表すことができません。ただし、事前分布として混合密度（この場合は2つのベータ分布の組み合わせ）を使用することで表すことができます。これは、超事前分布の一種です。

任意の尤度は指数分布族に属さないため、一般に共役事前分布は存在しません。その場合、事後分布は数値的手法によって計算する必要があります。

上記の事前分布が共役事前分布であることを示すために、事後分布を導出することができます。

まず、単一の観測値の確率が、その自然パラメータを使用してパラメータ化された指数族に従うと仮定します。

$p_{F}(x\mid {\boldsymbol {\eta }})=h(x)\,g({\boldsymbol {\eta }})\,\exp \left[{\boldsymbol {\eta }}^{\mathsf {T}}\mathbf {T} (x)\right]$

次に、データの尤度は次のように計算されます。 $\mathbf {X} =(x_{1},\ldots ,x_{n})$

$p(\mathbf {X} \mid {\boldsymbol {\eta }})=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)$

次に、上記の共役事前分布について、次のようになります。

${\begin{aligned}p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )&=f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\propto g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\end{aligned}}$

次に事後分布を次のように計算します。

${\begin{aligned}p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )&\propto p(\mathbf {X} \mid {\boldsymbol {\eta }})p_{\pi }({\boldsymbol {\eta }}\mid {\boldsymbol {\chi }},\nu )\\&=\left(\prod _{i=1}^{n}h(x_{i})\right)g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)f({\boldsymbol {\chi }},\nu )g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&\propto g({\boldsymbol {\eta }})^{n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)g({\boldsymbol {\eta }})^{\nu }\exp({\boldsymbol {\eta }}^{\mathsf {T}}{\boldsymbol {\chi }})\\&=g({\boldsymbol {\eta }})^{\nu +n}\exp \left({\boldsymbol {\eta }}^{\mathsf {T}}\left({\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\right)\right)\end{aligned}}$

最後の行は事後分布の核であり、すなわち

$p({\boldsymbol {\eta }}\mid \mathbf {X} ,{\boldsymbol {\chi }},\nu )=p_{\pi }\left({\boldsymbol {\eta }}\left|~{\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i}),\nu +n\right.\right)$

これは、事後分布が事前分布と同じ形式であることを示しています。

データ $Xは$ 、次の式でのみこの方程式に入ります。

$\mathbf {T} (\mathbf {X} )=\sum _{i=1}^{n}\mathbf {T} (x_{i}),$

これはデータの十分統計量と呼ばれます。つまり、十分統計量の値は事後分布を完全に決定するのに十分です。実際のデータポイント自体は必要ではなく、同じ十分統計量を持つすべてのデータポイントセットは同じ分布を持ちます。これは重要な点です。なぜなら、十分統計量の次元はデータサイズに応じて増加しないからです。つまり、十分統計量の要素数は、（単一のデータポイントの分布のパラメータの数と同等に）要素数と同じだけだからです。 ${\boldsymbol {\eta }}$

更新方程式は次のとおりです。

${\begin{aligned}{\boldsymbol {\chi }}'&={\boldsymbol {\chi }}+\mathbf {T} (\mathbf {X} )\\&={\boldsymbol {\chi }}+\sum _{i=1}^{n}\mathbf {T} (x_{i})\\\nu '&=\nu +n\end{aligned}}$

これは、更新方程式がデータ点の数とデータの十分な統計量で単純に記述できることを示しています。これは、共役事前分布のページに示されている更新方程式の様々な例で明確に示されています。十分な統計量の計算方法のため、必然的にデータの成分の和が含まれます（場合によっては積や他の形式として偽装されます。積は対数の和で記述できます）。特定の分布の更新方程式が上記の形式と完全に一致しない場合は、共役事前分布が上記の形式の共役事前分布を生成するものとは異なるパラメータ化を使用して表現されている場合です。これは多くの場合、上記の形式が自然パラメータ上で定義されているのに対し、共役事前分布は通常、実パラメータ上で定義されるためです。 ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}.$

偏りのない推定

尤度が指数族である場合、の不偏推定量はである。^[16] $z|\eta \sim e^{\eta z}f_{1}(\eta )f_{0}(z)$ $\eta$ $-{\frac {d}{dz}}\ln f_{0}(z)$

仮説検定：均一に最も強力な検定

1パラメータ指数分布族は、十分統計量 $T (x)$ において単調な非減少尤度比を持ちます（ただし、 $η (θ)は非減少です）。したがって、$ 仮説 $H$ $0$ : $θ$ $\geq$ $θ$ $0$ と $H$ $1$ : $θ$ $<$ $θ$ $0$ の検定において、一様に最も強力な検定法が存在します。

一般化線形モデル

指数分布族は、統計学で一般的に用いられる多くの回帰モデルを包含するモデルの一種である一般化線形モデル（GLM）で使用される分布関数の基礎を形成します。例としては、二項分布族を用いたロジスティック回帰やポアソン回帰などが挙げられます。

参照

脚注

^ たとえば、正規分布のファミリーには、平均 0 と分散 1 の標準正規分布 $N (0, 1)$ や、平均と分散が異なるその他の正規分布が含まれます。
^ 「パーティション関数」は統計学では「正規化係数」の同義語としてよく使用されます。
^ これらの分布は、それ自体が指数分布族ではないことが多い。指数分布族から派生する非指数分布族の一般的な例としては、スチューデントのt分布、ベータ二項分布、ディリクレ多項分布などが挙げられる。

参考文献

引用

^ Kupperman, M. (1958). 「指数クラス母集団からのサンプリングにおける仮説確率と情報統計量」Annals of Mathematical Statistics . 9 (2): 571– 575. doi : 10.1214/aoms/1177706633 . JSTOR 2237349.
^ Andersen, Erling (1970年9月). 「離散標本空間における十分性と指数族」. Journal of the American Statistical Association . 65 (331). Journal of the American Statistical Association: 1248– 1255. doi :10.2307/2284291. JSTOR 2284291. MR 0268992.
^ Pitman, E. ; Wishart, J. (1936). 「十分な統計量と本質的精度」.ケンブリッジ哲学協会数学紀要. 32 (4): 567– 579. Bibcode :1936PCPS...32..567P. doi :10.1017/S0305004100019307. S2CID 120708376.
^ ダルモワ、G. (1935)。「徹底的な確率推定」。CRアカデミー。科学。パリ（フランス語）。200 : 1265–1266。
^ Koopman, B. (1936). 「十分な統計量を許容する分布について」.アメリカ数学会誌. 39 (3).アメリカ数学会誌: 399–409 . doi : 10.2307/1989758 . JSTOR 1989758. MR 1501854.
^ 「一般指数族」www.randomservices.org . 2022年8月30日閲覧。
^ アブラモビッチ＆リトフ（2013年）『統計理論：簡潔な入門』チャップマン＆ホール、ISBN 978-1439851845。
^ Blei, David. 「変分推論」（PDF）プリンストン大学
^ Casella, George (2002).統計的推論. Roger L. Berger (第2版). オーストラリア: Thomson Learning. 定理6.2.25. ISBN 0-534-24312-6. OCLC 46538638。
^ ブラウン、ローレンス・D. (1986).統計的指数族の基礎：統計的決定理論への応用. カリフォルニア州ヘイワード：数理統計研究所. 定理2.12. ISBN 0-940600-10-2. OCLC 15986663。
^ Keener, Robert W. (2010). 『理論統計：コアコースのトピックス』ニューヨーク. pp. 47, 例3.12. ISBN 978-0-387-93839-4. OCLC 676700036。{{cite book}}: CS1 maint: location missing publisher (link)
^ ニールセン, フランク; ガルシア, ヴィンセント (2009). 「統計的指数関数族：フラッシュカード付きダイジェスト」. arXiv : 0911.4863 [cs.LG].
^ van Garderen, Kees Jan (1997). 「計量経済学における曲線指数モデル」.計量理論. 13 (6): 771– 790. doi :10.1017/S0266466600006253. S2CID 122742807.
^ Nielsen & Nock 2010、4。指数族のブレグマンダイバージェンスと相対エントロピー。
^ Barndorff-Nielsen 1978、9.1 凸双対性と指数族。
^ エフロン、ブラッドリー（2011年12月）「トゥイーディーの公式と選択バイアス」アメリカ統計学会誌. 106 (496): 1602– 1614. doi :10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788 .

出典

バーンドルフ＝ニールセン、オレ（1978年）『統計理論における情報と指数族』ワイリー確率・数理統計シリーズ、チチェスター：ジョン・ワイリー・アンド・サンズ社、9～238頁、ISBN 0-471-99545-2. MR 0489333。
- バーンドルフ＝ニールセン、オーレ（2014年）『統計理論における情報と指数族』として再版。John Wiley & Sons, Ltd. doi :10.1002/9781118857281. ISBN 978-111885750-2。
ニールセン, フランク; ガルシア, ヴィンセント (2009). 「統計的指数族：フラッシュカード付きダイジェスト」. arXiv : 0911.4863 .書誌コード:2009arXiv0911.4863N.
Nielsen, Frank; Nock, Richard (2010). 指数族のエントロピーとクロスエントロピー(PDF) . IEEE International Conference on Image Processing. doi :10.1109/ICIP.2010.5652054. オリジナル(PDF)から2019年3月31日にアーカイブ。

さらに読む

ファーメイヤー, ルートヴィヒ; タッツ, G. (1994).一般化線形モデルに基づく多変量統計モデリング. シュプリンガー. pp. 18– 22, 345– 349. ISBN 0-387-94233-5。
キーナー、ロバート・W. (2006). 『理論統計学：コアコースのトピック』シュプリンガー. pp. 27– 28, 32– 33. ISBN 978-0-387-93838-7。
エルマン州リーマン。カセラ、G. (1998)。点推定理論(第 2 版)。秒1.5. ISBN 0-387-98502-6。

外部リンク

指数分布族の入門
指数分布族における数学用語の最も古い使用例
jMEF: 指数族のためのJavaライブラリ 2013年4月11日archive.todayにアーカイブ
ウェインライトとジョーダン著『グラフィカルモデル、指数族、変分推論』（2008年）

[Iverson-16] アイバーソン括弧は離散デルタ関数の一般化です。括弧で囲まれた式が真の場合、括弧の値は1です。括弧で囲まれた文が偽の場合、アイバーソン括弧の値は0です。波型括弧など、様々な表記法があります。⧙ $a$ $=$ $b$ $⧘$ $は、上記の$ $[a = b]$ 表記と同等です。

[6] たとえば、正規分布のファミリーには、平均 0 と分散 1 の標準正規分布 $N (0, 1)$ や、平均と分散が異なるその他の正規分布が含まれます。

[9] 「パーティション関数」は統計学では「正規化係数」の同義語としてよく使用されます。

[10] これらの分布は、それ自体が指数分布族ではないことが多い。指数分布族から派生する非指数分布族の一般的な例としては、スチューデントのt分布、ベータ二項分布、ディリクレ多項分布などが挙げられる。

[1] Kupperman, M. (1958). 「指数クラス母集団からのサンプリングにおける仮説確率と情報統計量」Annals of Mathematical Statistics . 9 (2): 571– 575. doi : 10.1214/aoms/1177706633 . JSTOR 2237349.

[2] Andersen, Erling (1970年9月). 「離散標本空間における十分性と指数族」. Journal of the American Statistical Association . 65 (331). Journal of the American Statistical Association: 1248– 1255. doi :10.2307/2284291. JSTOR 2284291. MR 0268992.

[3] Pitman, E. ; Wishart, J. (1936). 「十分な統計量と本質的精度」.ケンブリッジ哲学協会数学紀要. 32 (4): 567– 579. Bibcode :1936PCPS...32..567P. doi :10.1017/S0305004100019307. S2CID 120708376.

[4] ダルモワ、G. (1935)。「徹底的な確率推定」。CRアカデミー。科学。パリ（フランス語）。200 : 1265–1266。

[5] Koopman, B. (1936). 「十分な統計量を許容する分布について」.アメリカ数学会誌. 39 (3).アメリカ数学会誌: 399–409 . doi : 10.2307/1989758 . JSTOR 1989758. MR 1501854.

[7] 「一般指数族」www.randomservices.org . 2022年8月30日閲覧。

[8] アブラモビッチ＆リトフ（2013年）『統計理論：簡潔な入門』チャップマン＆ホール、ISBN 978-1439851845。

[11] Blei, David. 「変分推論」（PDF）プリンストン大学

[12] Casella, George (2002).統計的推論. Roger L. Berger (第2版). オーストラリア: Thomson Learning. 定理6.2.25. ISBN 0-534-24312-6. OCLC 46538638。

[13] ブラウン、ローレンス・D. (1986).統計的指数族の基礎：統計的決定理論への応用. カリフォルニア州ヘイワード：数理統計研究所. 定理2.12. ISBN 0-940600-10-2. OCLC 15986663。

[14] Keener, Robert W. (2010). 『理論統計：コアコースのトピックス』ニューヨーク. pp. 47, 例3.12. ISBN 978-0-387-93839-4. OCLC 676700036。{{cite book}}: CS1 maint: location missing publisher (link)

[15] ニールセン, フランク; ガルシア, ヴィンセント (2009). 「統計的指数関数族：フラッシュカード付きダイジェスト」. arXiv : 0911.4863 [cs.LG].

[17] van Garderen, Kees Jan (1997). 「計量経済学における曲線指数モデル」.計量理論. 13 (6): 771– 790. doi :10.1017/S0266466600006253. S2CID 122742807.

[FOOTNOTENielsenNock20104._Bregman_Divergences_and_Relative_Entropy_of_Exponential_Families-18] Nielsen & Nock 2010、4。指数族のブレグマンダイバージェンスと相対エントロピー。

[FOOTNOTEBarndorff-Nielsen19789.1_Convex_duality_and_exponential_families-19] Barndorff-Nielsen 1978、9.1 凸双対性と指数族。

[20] エフロン、ブラッドリー（2011年12月）「トゥイーディーの公式と選択バイアス」アメリカ統計学会誌. 106 (496): 1602– 1614. doi :10.1198/jasa.2011.tm11181. ISSN 0162-1459. PMC 3325056. PMID 22505788 .

指数族

命名法の難しさ

意味

指数分布族の例

スカラーパラメータ

サポートは独立していなければならないθ

ベクトル値×そして θ

標準定式化

関係する変数の因数分解

ベクトルパラメータ

ベクトルパラメータ、ベクトル変数

測度論的定式化

解釈

プロパティ

例

正規分布：平均は不明、分散は既知

正規分布：平均と分散は不明

二項分布

分布表

十分統計量のモーメントとキュムラント

分布の正規化

十分統計量のモーメント生成関数

キュムラントの微分恒等式

例1

例2

例3

エントロピ

相対エントロピー

最大エントロピー導出

統計における役割

古典的な推定：十分性

ベイズ推定：共役分布

偏りのない推定

仮説検定：均一に最も強力な検定

一般化線形モデル

参照

脚注

参考文献

引用

出典

さらに読む

外部リンク

サポートは独立していなければならない $θ$

ベクトル値 $\times$ そして $θ$