最大尤度推定

統計学において、最大尤度推定法（MLE ）は、観測データが与えられた場合に、仮定された確率分布のパラメータを推定する手法である。これは、仮定された統計モデルにおいて観測データが最も確からしいものとなるように尤度関数を最大化することによって達成される。尤度関数を最大化するパラメータ空間上の点は、最大尤度推定値と呼ばれる。^[1]最大尤度の論理は直感的で柔軟性に富んでいるため、この手法は統計的推論の主要な手段となっている。^[2]^[3]^[4]

尤度関数が微分可能な場合、最大値を求めるための微分検定を適用できる。場合によっては、尤度関数の一次条件は解析的に解くことができる。例えば、線形回帰モデルの通常の最小二乗推定量は、ランダム誤差が同じ分散を持つ正規分布に従うと仮定した場合に、尤度を最大化する。 ^[5]

ベイズ推論の観点から見ると、MLEは一般に、関心領域内で一様となる事前分布を用いた最大事後確率（MAP）推定と同等です。頻度主義推論において、MLEは極値推定量の特殊なケースであり、目的関数は尤度です。

原則

我々は、一連のパラメータで表される未知の同時確率分布からランダムサンプルとして一連の観測値をモデル化します。最尤推定の目的は、観測データが最高の同時確率を持つパラメータを決定することです。我々は、同時分布を支配するパラメータをベクトルとして書き、この分布がパラメータ空間と呼ばれるパラメトリック族（ユークリッド空間の有限次元部分集合）内に収まるようにします。観測データサンプルにおける同時密度を評価すると、尤度関数と呼ばれる実数値関数が得られます。独立したランダム変数の場合、は単変量密度関数の積になります。 $\;\theta =\left[\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{k}\right]^{\mathsf {T}}\;$ $\;\{f(\cdot \,;\theta )\mid \theta \in \Theta \}\;,$ $\,\Theta \,$ $\;\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})\;$ ${\mathcal {L}}_{n}(\theta )={\mathcal {L}}_{n}(\theta ;\mathbf {y} )=f_{n}(\mathbf {y} ;\theta )\;,$ $f_{n}(\mathbf {y} ;\theta )$ $f_{n}(\mathbf {y} ;\theta )=\prod _{k=1}^{n}\,f_{k}^{\mathsf {univar}}(y_{k};\theta )~.$

最大尤度推定の目的は、パラメータ空間上で尤度関数を最大化するモデルパラメータの値を見つけることである^[6]。つまり、 ${\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\,{\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.$

直感的に言えば、これは観測データの尤度を最も高くするパラメータ値を選択することを意味します。尤度関数を最大化する特定の値は、最大尤度推定値と呼ばれます。さらに、このように定義された関数が測定可能であれば、最大尤度推定値と呼ばれます。これは通常、標本空間上で定義される関数、つまり与えられた標本を引数として取る関数です。尤度関数が存在するための十分な条件は、尤度関数がコンパクトなパラメータ空間上で連続であることですが、これは必須条件ではありません。^[7]オープンな尤度関数の場合、尤度関数は最大値に達することなく増加することがあります。 $~{\hat {\theta }}={\hat {\theta }}_{n}(\mathbf {y} )\in \Theta ~$ $\,{\mathcal {L}}_{n}\,$ $\;{\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta \;$ $\,\Theta \,$ $\,\Theta \,$

実際には、尤度関数の自然対数、つまり対数尤度を扱うのが便利な場合が多い。対数は単調関数であるため、の最大値はの最大値と同じ値で発生する。^[8]が最大値（または最小値）の発生に十分な条件で微分可能である場合、尤度方程式として知られる。一部のモデルでは、これらの方程式はについて明示的に解くことができるが、一般に最大化問題に対する閉形式の解は知られていないか利用可能でなく、MLE は数値最適化によってのみ見つけることができる。もう 1 つの問題は、有限サンプルでは尤度方程式に複数の根が存在する可能性があることである。 ^[9]尤度方程式の特定された根が実際に（局所的）最大値であるかどうかは、2 次偏微分および交差偏微分行列、いわゆるヘッセ行列が $\ell (\theta \,;\mathbf {y} )=\ln {\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.$ $\;\ell (\theta \,;\mathbf {y} )\;$ $\theta$ $\,{\mathcal {L}}_{n}~.$ $\ell (\theta \,;\mathbf {y} )$ $\,\Theta \,,$ ${\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0~,$ $\,{\widehat {\theta \,}}\,,$ $\,{\widehat {\theta \,}}\,$

$\mathbf {H} \left({\widehat {\theta \,}}\right)={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\vdots &\vdots &\ddots &\vdots \\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}}~,$

はにおいて半負定値であり、これは局所的に凹であることを示す。都合の良いことに、最も一般的な確率分布、特に指数分布族は対数的に凹である。^[10]^[11] ${\widehat {\theta \,}}$

制限されたパラメータ空間

尤度関数の領域、すなわちパラメータ空間は、一般的にはユークリッド空間の有限次元部分集合であるが、推定過程において追加の制約を組み込む必要がある場合もある。パラメータ空間は次のように表される。 $\Theta =\left\{\theta :\theta \in \mathbb {R} ^{k},\;h(\theta )=0\right\}~,$

ここで、はベクトル値関数であり、に属する真のパラメータを推定することは、実際問題として、制約条件の下で尤度関数の最大値を見つけることを意味する。 $\;h(\theta )=\left[h_{1}(\theta ),h_{2}(\theta ),\ldots ,h_{r}(\theta )\right]\;$ $\,\mathbb {R} ^{k}\,$ $\;\mathbb {R} ^{r}~.$ $\theta$ $\Theta$ $~h(\theta )=0~.$

理論的には、この制約付き最適化問題に対する最も自然なアプローチは置換法である。これは、制約をから自身への1対1関数となるような方法で集合に「埋める」ことであり、尤度関数をに設定して再パラメータ化する。 ^[12]最大尤度推定値の同値性のため、MLEの特性は制約付き推定値にも適用される。^[13]例えば、多変量正規分布では、共分散行列は正定値でなければならない。この制約はをに置き換えることで課すことができる。ここでは実上三角行列でありはその転置である。^[14] $\;h_{1},h_{2},\ldots ,h_{r}\;$ $\;h_{1},h_{2},\ldots ,h_{r},h_{r+1},\ldots ,h_{k}\;$ $\;h^{\ast }=\left[h_{1},h_{2},\ldots ,h_{k}\right]\;$ $\mathbb {R} ^{k}$ $\;\phi _{i}=h_{i}(\theta _{1},\theta _{2},\ldots ,\theta _{k})~.$ $\,\Sigma \,$ $\;\Sigma =\Gamma ^{\mathsf {T}}\Gamma \;,$ $\Gamma$ $\Gamma ^{\mathsf {T}}$

実際には、制約は通常ラグランジュ法を用いて課され、上で定義された制約を与えられた場合、制約尤度方程式と ${\frac {\partial \ell }{\partial \theta }}-{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\lambda =0$ $h(\theta )=0\;,$

ここで、はラグランジュ乗数の列ベクトルであり、は偏微分 $k\timesr$ ヤコビ行列である。^[12]当然、制約が最大値で拘束されていない場合、ラグランジュ乗数はゼロになるはずである。^{[15]これにより、}ラグランジュ乗数検定として知られる制約の「妥当性」の統計的検定が可能になる。 $~\lambda =\left[\lambda _{1},\lambda _{2},\ldots ,\lambda _{r}\right]^{\mathsf {T}}~$ $\;{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\;$

ノンパラメトリック最大尤度推定

経験尤度を使用して、ノンパラメトリック最大尤度推定を実行できます。

プロパティ

最尤推定量とは、θの関数として目的関数を最大化することで得られる極値推定量です。データが独立かつ同一に分布している場合、これは期待対数尤度の標本類似物となり、この期待値は真の密度を基準とします。 ${\widehat {\ell \,}}(\theta \,;x)$ ${\widehat {\ell \,}}(\theta \,;x)=\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),$ $\ell (\theta )=\operatorname {\mathbb {E} } [\,\ln f(x_{i}\mid \theta )\,]$

最大尤度推定量は有限サンプルに対して最適な特性を持たない。つまり、有限サンプルで評価した場合、他の推定量は真のパラメータ値の周囲により集中する可能性がある。^[16]しかし、他の推定方法と同様に、最大尤度推定量はいくつかの魅力的な限界特性を持っている。サンプルサイズが無限大に増加すると、最大尤度推定量のシーケンスは次のような特性を持つ。

一貫性: MLE のシーケンスは、推定される値に確率的に収束します。
同分散性：がの最大尤度推定値であり、がの全単射変換である場合、の最大尤度推定値はです。同分散性は非全単射変換にも一般化できますが、その場合、同分散性は誘導尤度関数の最大値に適用されますが、これは一般に真の尤度ではありません。 ${\hat {\theta }}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$ ${\hat {\alpha }}=g({\hat {\theta }})$
効率性、すなわち標本サイズが無限大に近づくと、クラメール・ラオの下限値を達成します。これは、MLE（またはこの下限値を達成する他の推定値）よりも漸近平均二乗誤差が低い整合推定値は存在しないことを意味し、MLEは漸近正規性を持つことも意味します。
バイアス補正後の 2 次効率。

一貫性

以下に概説する条件下では、最尤推定量は整合している。整合とは、データがによって生成され、十分に大きな観測値nがある場合、 θ ₀の値を任意の精度で求めることができることを意味する。数学的に言えば、これはn が無限大に近づくにつれて、推定値が確率的に真の値に収束することを意味する。 $f(\cdot \,;\theta _{0})$ ${\widehat {\theta \,}}$ ${\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{p}}}\ \theta _{0}.$

わずかに強い条件下では、推定値はほぼ確実に（または強く）収束します。 ${\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{a.s.}}}\ \theta _{0}.$

実用においては、データがによって生成されることは決してありません。むしろ、はデータによって生成されるプロセスのモデルであり、多くの場合理想化された形で存在します。統計学では、すべてのモデルは間違っているという格言がよく用いられます。したがって、実用においては真の一貫性は実現しません。しかしながら、一貫性は推定量にとって望ましい特性であるとしばしば考えられています。 $f(\cdot \,;\theta _{0})$ $f(\cdot \,;\theta _{0})$

一貫性を確立するには、以下の条件を満たせば十分である。^[17]

モデルの識別:
$\theta \neq \theta _{0}\quad \Leftrightarrow \quad f(\cdot \mid \theta )\neq f(\cdot \mid \theta _{0}).$ 言い換えれば、異なるパラメータ値θは、モデル内の異なる分布に対応する。もしこの条件が成り立たなければ、観測データの分布が同一となるような値θ ₁_が存在することになる。そうなると、たとえ無限量のデータ_{があっても}、これら2つのパラメータを区別することができなくなり、これらのパラメータは観測的に等価なものとなってしまう。
識別条件は、ML推定値が整合するために絶対に必要です。この条件が満たされている場合、極限尤度関数ℓ ( θ |·) はθ ₀において唯一の大域的最大値を持ちます。
コンパクト性: モデルのパラメータ空間 Θ はコンパクトです。
識別条件は、対数尤度が唯一の大域的最大値を持つことを確立します。コンパクト性とは、尤度が他の点において最大値に任意に近い値に近づくことができないことを意味します（例えば右の図で示されています）。
コンパクト性は十分条件であり、必要条件ではありません。コンパクト性は、例えば以下のような他の条件に置き換えることができます。
- 対数尤度関数の凹性と、対数尤度関数の上位レベルのいくつかの（空でない）集合のコンパクト性の両方、または
- $θ$ ₀のコンパクトな近傍 $N$ が存在し、 $N$ の外側では対数尤度関数が最大値よりも少なくとも $ε$ > 0だけ小さくなる。
連続性：関数 $ln f (x | θ)は、ほぼすべての$ $x$ の値に対して $θ$ に関して連続です。
$\operatorname {\mathbb {P} } {\Bigl [}\;\ln f(x\mid \theta )\;\in \;C^{0}(\Theta )\;{\Bigr ]}=1.$
ここでの連続性は、上側の半連続性のわずかに弱い条件に置き換えることができます。
$優位性: 分布f$ $($ $x$ $|$ $θ$ $0$ $)$ に関して積分可能な $D (x)$ が存在し、大数の一様法則により、優位条件と連続性により、対数尤度の確率の一様収束が確立されます。 ${\Bigl |}\ln f(x\mid \theta ){\Bigr |}<D(x)\quad {\text{ for all }}\theta \in \Theta .$ $\sup _{\theta \in \Theta }\left|{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\,\right|\ \xrightarrow {\text{p}} \ 0.$

優位条件は、 IID観測の場合に適用できます。非IID観測の場合、確率の一様収束は、系列が確率的に等連続であることを示すことによって確認できます。 ${\widehat {\ell \,}}(\theta \mid x)$

ML推定値がほぼ確実にθ ₀に収束することを証明したい場合は、より強い均一収束条件を課す必要があります。 ${\widehat {\theta \,}}$ $\sup _{\theta \in \Theta }\left\|\;{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\;\right\|\ \xrightarrow {\text{a.s.}} \ 0.$

さらに、（上記の仮定通り）データがによって生成された場合、特定の条件下では、最大尤度推定値が正規分布に収束することも示されます。具体的には、 ^[18]で、 $I$ はフィッシャー情報行列です。 $f(\cdot \,;\theta _{0})$ ${\sqrt {n}}\left({\widehat {\theta \,}}_{\mathrm {mle} }-\theta _{0}\right)\ \xrightarrow {d} \ {\mathcal {N}}\left(0,\,I^{-1}\right)$

機能的不変性

最尤推定量は、観測データに最大の確率（連続の場合は確率密度）を与えるパラメータ値を選択する。パラメータが複数の要素から構成される場合、それらの個々の最尤推定量を、完全なパラメータのMLEの対応する要素として定義する。これと整合して、がのMLEであり、がの任意の変換である場合、のMLEは定義によりとなる^[19]。 ${\widehat {\theta \,}}$ $\theta$ $g(\theta )$ $\theta$ $\alpha =g(\theta )$

${\widehat {\alpha }}=g(\,{\widehat {\theta \,}}\,).\,$

いわゆるプロファイル尤度を最大化します。

${\bar {L}}(\alpha )=\sup _{\theta :\alpha =g(\theta )}L(\theta ).\,$

MLEは、データの特定の変換に関しても同変である。が1対1で推定対象のパラメータに依存しない場合、密度関数は $y=g(x)$ $g$

$f_{Y}(y)=f_{X}(g^{-1}(y))\,|(g^{-1}(y))^{\prime }|$

したがって、およびの尤度関数は、モデルパラメータに依存しない係数によってのみ異なります。 $X$ $Y$

例えば、対数正規分布のMLEパラメータは、データの対数に当てはめられた正規分布のMLEパラメータと同じです。実際、対数正規分布の場合、であれば対数正規分布に従います。Yの密度は、の場合、標準正規分布とに従います。 $X\sim {\mathcal {N}}(0,1)$ $Y=g(X)=e^{X}$ $f_{X}$ $g^{-1}(y)=\log(y)$ $|(g^{-1}(y))^{\prime }|={\frac {1}{y}}$ $y>0$

効率

上で仮定したように、データが特定の条件下でその時までに生成された場合、最尤推定量は分布的に正規分布に収束することも示せます。これは√n-整合かつ漸近的に効率的であり、つまりクラメール・ラオの限界に達します。具体的には、^[18] $~f(\cdot \,;\theta _{0})~,$

${\sqrt {n\,}}\,\left({\widehat {\theta \,}}_{\text{mle}}-\theta _{0}\right)\ \ \xrightarrow {d} \ \ {\mathcal {N}}\left(0,\ {\mathcal {I}}^{-1}\right)~,$ フィッシャー情報行列は次のようになります。 $~{\mathcal {I}}~$ ${\mathcal {I}}_{jk}=\operatorname {\mathbb {E} } \,{\biggl [}\;-{\frac {\partial ^{2}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{j}\,\partial \theta _{k}}}\;{\biggr ]}~.$

特に、最大尤度推定量のバイアスは次数までゼロに等しいことを意味する。1/√n $$ ⁠。

バイアス補正後の二次効率

しかし、この推定量の分布展開における高次の項を考慮すると、 $θ mle は$ 1 ⁄ $n$ のオーダーのバイアスを持つことがわかる。このバイアスは（成分ごとに） ^[20]に等しい。

$b_{h}\;\equiv \;\operatorname {\mathbb {E} } {\biggl [}\;\left({\widehat {\theta }}_{\mathrm {mle} }-\theta _{0}\right)_{h}\;{\biggr ]}\;=\;{\frac {1}{\,n\,}}\,\sum _{i,j,k=1}^{m}\;{\mathcal {I}}^{hi}\;{\mathcal {I}}^{jk}\left({\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\right)$

ここで（上付き文字）は逆フィッシャー情報行列の（ j,k）番目の成分を表し、 ${\mathcal {I}}^{jk}$ ${\mathcal {I}}^{-1}$

${\frac {1}{\,2\,}}\,K_{ijk}\;+\;J_{j,ik}\;=\;\operatorname {\mathbb {E} } \,{\biggl [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(X_{t})}{\partial \theta _{i}\;\partial \theta _{j}\;\partial \theta _{k}}}+{\frac {\;\partial \ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{j}}}\,{\frac {\;\partial ^{2}\ln f_{\theta _{0}}(X_{t})\;}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\biggr ]}~.$

これらの式を使うと、最大尤度推定量の2次のバイアスを推定し、それを差し引くことでそのバイアスを修正することができる。この推定量は次数までバイアスがない。 ${\widehat {\theta \,}}_{\text{mle}}^{*}={\widehat {\theta \,}}_{\text{mle}}-{\widehat {b\,}}~.$ 1/ $n$ ⁠ 、バイアス補正最大尤度推定量と呼ばれます。

このバイアス補正推定量は2次効率が高い（少なくとも曲線指数族内では）。つまり、2次バイアス補正推定量の中で、次の項まで平均二乗誤差が最小であることを意味する。1/ $n$ ² ⁠ . このプロセスを継続して、3次のバイアス補正項を導出するなどすることも可能です。しかし、最大尤度推定量は3次の効率性を持っていません。 ^[21]

ベイズ推論との関係

最尤推定量は、パラメータに一様事前分布が与えられた場合、最も確率の高いベイズ推定量と一致する。実際、最大事後推定値は、ベイズの定理によって与えられる、データが与えられた場合に $θ$ の確率を最大化するパラメータ $θである。$

$\operatorname {\mathbb {P} } (\theta \mid x_{1},x_{2},\ldots ,x_{n})={\frac {f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )}{\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})}}$

ここで、はパラメータ $θ$ の事前分布であり、はすべてのパラメータにわたって平均されたデータの確率です。分母は $θ$ に依存しないため、ベイズ推定値は $θ$ に関して最大化することで得られます。さらに、事前分布が一様分布であると仮定すると、ベイズ推定値は尤度関数を最大化することで得られます。したがって、ベイズ推定値は一様事前分布の最大尤度推定値と一致します。 $\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (x_{1},x_{2},\ldots ,x_{n})$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )\operatorname {\mathbb {P} } (\theta )$ $\operatorname {\mathbb {P} } (\theta )$ $f(x_{1},x_{2},\ldots ,x_{n}\mid \theta )$ $\operatorname {\mathbb {P} } (\theta )$

ベイズ決定理論における最大尤度推定の応用

機械学習の多くの実用的なアプリケーションでは、最大尤度推定がパラメータ推定のモデルとして使用されます。

ベイズ決定理論は、総期待リスクを最小化する分類器を設計することに関するもので、特に、異なる決定に関連するコスト（損失関数）が等しい場合、分類器は分布全体にわたって誤差を最小化します。^[22]

したがって、ベイズ決定則は次のように述べられる。

「そうでなければ決定する」

\;w_{1}\;

~\operatorname {\mathbb {P} } (w_{1}|x)\;>\;\operatorname {\mathbb {P} } (w_{2}|x)~;~

\;w_{2}\;

異なるクラスの予測値です。誤差を最小化するという観点からは、次のようにも言えます。もし決定すると、そしてもし決定すると、 $\;w_{1}\,,w_{2}\;$ $w={\underset {w}{\operatorname {arg\;max} }}\;\int _{-\infty }^{\infty }\operatorname {\mathbb {P} } ({\text{ error}}\mid x)\operatorname {\mathbb {P} } (x)\,\operatorname {d} x~$ $\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{1}\mid x)~$ $\;w_{2}\;$ $\;\operatorname {\mathbb {P} } ({\text{ error}}\mid x)=\operatorname {\mathbb {P} } (w_{2}\mid x)\;$ $\;w_{1}\;.$

ベイズの定理を適用し、さらに、すべてのエラーに対して同じ損失であるゼロまたは 1 の損失関数を想定すると、ベイズ決定規則は次のように再定式化できます。ここで、は予測値、は事前確率です。 $\operatorname {\mathbb {P} } (w_{i}\mid x)={\frac {\operatorname {\mathbb {P} } (x\mid w_{i})\operatorname {\mathbb {P} } (w_{i})}{\operatorname {\mathbb {P} } (x)}},$ $h_{\text{Bayes}}={\underset {w}{\operatorname {arg\;max} }}\,{\bigl [}\,\operatorname {\mathbb {P} } (x\mid w)\,\operatorname {\mathbb {P} } (w)\,{\bigr ]}\;,$ $h_{\text{Bayes}}$ $\;\operatorname {\mathbb {P} } (w)\;$

カルバック・ライブラー距離と交差エントロピーの最小化との関係

尤度を最大化するを見つけることは、カルバック・ライブラー・ダイバージェンスの観点から、データが生成された実際の確率分布（つまり、によって生成された）からの距離が最小となる確率分布（）を定義するを見つけることと漸近的に等価です。^[23]理想的な世界では、P と Q は同じです（そして唯一不明なのはP を定義するです）が、たとえそれらが同じでなく、使用するモデルが誤って指定されていたとしても、MLE は実際の分布に「最も近い」分布（に依存するモデル Q の制約内で）を提供します。^[24] ${\hat {\theta }}$ ${\hat {\theta }}$ $Q_{\hat {\theta }}$ $P_{\theta _{0}}$ $\theta$ ${\hat {\theta }}$ $P_{\theta _{0}}$

証拠。

表記を簡略化するため、P=Qと仮定しましょう。ある確率からn 個の i.idデータサンプルがあり、を用いて尤度を最大化するを求めることで推定すると、次のようになります。 $\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})$ $y\sim P_{\theta _{0}}$ ${\hat {\theta }}$ $P_{\theta }$ ${\begin{aligned}{\hat {\theta }}&={\underset {\theta }{\operatorname {arg\,max} }}\,L_{P_{\theta }}(\mathbf {y} )={\underset {\theta }{\operatorname {arg\,max} }}\,P_{\theta }(\mathbf {y} )={\underset {\theta }{\operatorname {arg\,max} }}\,P(\mathbf {y} \mid \theta )\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\prod _{i=1}^{n}P(y_{i}\mid \theta )={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\log P(y_{i}\mid \theta )\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\left(\sum _{i=1}^{n}\log P(y_{i}\mid \theta )-\sum _{i=1}^{n}\log P(y_{i}\mid \theta _{0})\right)={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\left(\log P(y_{i}\mid \theta )-\log P(y_{i}\mid \theta _{0})\right)\\&={\underset {\theta }{\operatorname {arg\,max} }}\,\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta )}{P(y_{i}\mid \theta _{0})}}={\underset {\theta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta _{0})}{P(y_{i}\mid \theta )}}={\underset {\theta }{\operatorname {arg\,min} }}\,{\frac {1}{n}}\sum _{i=1}^{n}\log {\frac {P(y_{i}\mid \theta _{0})}{P(y_{i}\mid \theta )}}\\&={\underset {\theta }{\operatorname {arg\,min} }}\,{\frac {1}{n}}\sum _{i=1}^{n}h_{\theta }(y_{i})\quad {\underset {n\to \infty }{\longrightarrow }}\quad {\underset {\theta }{\operatorname {arg\,min} }}\,E[h_{\theta }(y)]\\&={\underset {\theta }{\operatorname {arg\,min} }}\,\int P_{\theta _{0}}(y)h_{\theta }(y)dy={\underset {\theta }{\operatorname {arg\,min} }}\,\int P_{\theta _{0}}(y)\log {\frac {P(y\mid \theta _{0})}{P(y\mid \theta )}}dy\\&={\underset {\theta }{\operatorname {arg\,min} }}\,D_{\text{KL}}(P_{\theta _{0}}\parallel P_{\theta })\end{aligned}}$

ここで、h を使うことで、大数の法則を用いてh ( x )の平均から、無意識の統計学者の法則を用いた期待値へとどのように移行しているかが分かります。最初のいくつかの遷移は対数の法則に関係しており、ある関数を最大化するを求めることは、その関数の単調変換（つまり、定数の加算／乗算）を最大化するを求めることにもなります。 $h_{\theta }(x)=\log {\frac {P(x\mid \theta _{0})}{P(x\mid \theta )}}$ ${\hat {\theta }}$

交差エントロピーはシャノンのエントロピーとKLダイバージェンスを足したものであり、のエントロピーは定数であるため、MLEは交差エントロピーを漸近的に最小化します。^[25] $P_{\theta _{0}}$

予測バイアス

パラメータの最尤推定値は、確率密度関数、累積分布関数、または分位関数の式に代入して、サンプル外イベントの確率または分位数の予測値を生成することができます。この確率予測方法は、統計学の教科書^[26]^[27]^[28]や保険数理の教科書^[29]で推奨されており、科学文献で広く使用されています。しかし、最尤予測では、最大尤度パラメータ推定値の不確実性を予測に反映させることができません。^[30]^[31]結果として、予測確率は適切に較正されておらず、サンプル外イベントの頻度に対応することは期待できません。特に、裾超過確率と裾超過分位数は、通常、過小評価され、場合によっては大幅に過小評価されます。トレーニングデータが少なく、推定されるパラメータが多く、遠い裾の場合、過小評価は最大になります。この予測バイアスが問題となる場合には、バイアスを軽減または排除するように事前確率を選択すれば、ベイズ予測が解決策となる。^[32]^[33]^[34]

例

離散一様分布

1 からnまでの番号が付けられたn 枚のチケットが箱に入れられ、その中から 1 枚がランダムに選択される場合を考えます(一様分布を参照)。したがって、サンプルサイズは 1 です。n が不明な場合、nの最大尤度推定値は、抽選されたチケットの番号mです。(尤度は、 n < mの場合は 0 、n ≥ mの場合は1 ⁄ nで、これはn = mのときに最大になります。nの最大尤度推定値は、可能性のある値の範囲の「中央」ではなく、下限値{ m、 m + 1、...} で発生することに注意してください。中央であれば、バイアスが少なくなります。) 抽選されたチケットの番号mの期待値、つまりの期待値は、( n + 1)/2 です。結果として、サンプルサイズが 1 の場合、nの最大尤度推定値はn を( n − 1)/2 だけ系統的に過小評価することになります。 ${\widehat {n}}$ ${\widehat {n}}$

離散分布、有限パラメータ空間

不公平なコインがどれほど偏っているかを調べたいとします。「表」が出る確率をpとします。すると、目標はpを決定することになります。

コインを 80 回投げるとします。つまり、サンプルはx ₁ = H、x ₂ = T、...、x _{80 = T のようになり、}表が出た回数"H" が観察されます。

裏が出る確率は1 − pです（したがって、ここでpは上記のθです）。結果が表が49回、裏が31回で、そのコインが3枚のコインが入った箱から出されたとします。1枚は確率p = 1 ⁄ 3で表が出ます。1枚は確率p = 1 ⁄ 2で表が出ます。もう1枚は確率p = 2 ⁄ 3で表が出ます。コインのラベルは剥がされているため、どれが表だったかは不明です。最尤推定法を用いることで、観測されたデータから、最も尤度の高いコインを見つけることができます。サンプルサイズが80、成功回数が49回でp （「成功確率」）が異なる二項分布の確率質量関数を用いることで、尤度関数（以下で定義）は3つの値のいずれかになります。

${\begin{aligned}\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{3}})^{49}(1-{\tfrac {1}{3}})^{31}\approx 0.000,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {1}{2}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {1}{2}})^{49}(1-{\tfrac {1}{2}})^{31}\approx 0.012,\\[6pt]\operatorname {\mathbb {P} } {\bigl [}\;\mathrm {H} =49\mid p={\tfrac {2}{3}}\;{\bigr ]}&={\binom {80}{49}}({\tfrac {2}{3}})^{49}(1-{\tfrac {2}{3}})^{31}\approx 0.054~.\end{aligned}}$

尤度は $p$ = 2 ⁄ 3のときに最大化されるため、これが $p$ の 最大尤度推定値となります。

離散分布、連続パラメータ空間

ここで、コインが1枚しかなく、その $pが$ 0 ≤ $p$ ≤ 1の任意の値を取る可能性があると仮定します。最大化すべき尤度関数は $L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31}~,$

そして最大化は0 ≤ $p$ ≤ 1のすべての可能な値にわたって行われます。

この関数を最大化する1つの方法は、 $p$ について微分し、ゼロに設定することです。

${\begin{aligned}0&={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)~,\\[8pt]0&=49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&=p^{48}(1-p)^{30}\left[49-80p\right]~.\end{aligned}}$

これは3つの項の積です。最初の項は $p$ = 0のときに0になります。2番目の項は $p$ = 1のときに0になります。3番目の項は $p$ = 49 ⁄ 80のときに0になります。尤度を最大化する解は明らかに $p$ = 49 ⁄ 80です（ $p$ = 0と $p$ = 1のときは尤度が0になるため）。したがって、 $p$ の最大尤度推定値は49 ⁄ 80です。

この結果は、ベルヌーイ試行の成功回数を表すために49の代わりに $s$ などの文字を、ベルヌーイ試行の回数を表すために80の代わりに $n$ などの文字を代入することで簡単に一般化できます。全く同じ計算で $s$ ⁄ $n$ $が得られます。これは、 s$ 回の成功をもたらす $n回$ のベルヌーイ試行の任意のシーケンスに対する最大尤度推定値です。

連続分布、連続パラメータ空間

確率密度関数を持つ正規分布の場合 ${\mathcal {N}}(\mu ,\sigma ^{2})$

$f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),$

$n個の$ 独立した同一分布の正規確率変数のサンプルに対する対応する確率密度関数（尤度）は

$f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right).$

この分布族には $θ = (μ, σ)$ という 2 つのパラメータがあります。したがって、両方のパラメータに対して同時に、または可能であれば個別に尤度を最大化します。 ${\mathcal {L}}(\mu ,\sigma ^{2})=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})$

対数関数自体は尤度の範囲全体にわたって連続的な厳密増加関数であるため、尤度を最大化する値はその対数も最大化する（対数尤度自体は必ずしも厳密増加である必要はない）。対数尤度は次のように表される。

$\log \left({\mathcal {L}}(\mu ,\sigma ^{2})\right)=-{\frac {n}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(x_{i}-\mu \right)^{2}$

(注: 対数尤度は情報エントロピーおよびフィッシャー情報と密接に関連しています。)

この対数尤度の導関数を次のように計算します。

${\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log \left({\mathcal {L}}(\mu ,\sigma ^{2})\right)=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}.\end{aligned}}$ ここで標本平均はである。これは次のように解ける。 ${\bar {x}}$

${\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}{\frac {\,x_{i}\,}{n}}.$

これは確かに関数の最大値である。なぜなら、これは $μ$ における唯一の転換点であり、2次導関数は厳密にゼロより小さいからである。その期待値は、与えられた分布のパラメータ $μ$ に等しい。

$\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\mu }}\;{\bigr ]}=\mu ,\,$

これは、最大尤度推定値が偏りがないことを意味します。 ${\widehat {\mu }}$

同様に対数尤度を $σ$ について微分するとゼロになります。

${\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log {\Bigl (}{\mathcal {L}}(\mu ,\sigma ^{2}){\Bigr )}=-{\frac {\,n\,}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}.\end{aligned}}$

これは次のように解決される。

${\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}.$

得られた推定値を挿入する $\mu ={\widehat {\mu }}$

${\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.$

期待値を計算するには、式を平均ゼロの確率変数（統計誤差）で書き直すと便利です。これらの変数で推定値を表すと、 $\delta _{i}\equiv \mu -x_{i}$

${\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).$

上記の式を簡略化し、とという事実を利用すると、次の式が得られます。 $\operatorname {\mathbb {E} } {\bigl [}\;\delta _{i}\;{\bigr ]}=0$ $\operatorname {E} {\bigl [}\;\delta _{i}^{2}\;{\bigr ]}=\sigma ^{2}$

$\operatorname {\mathbb {E} } {\bigl [}\;{\widehat {\sigma }}^{2}\;{\bigr ]}={\frac {\,n-1\,}{n}}\sigma ^{2}.$

これは、推定値がに対して偏っていることを意味します。がに対して偏っていることも示せますが、とは両方とも矛盾しません。 ${\widehat {\sigma }}^{2}$ $\sigma ^{2}$ ${\widehat {\sigma }}$ $\sigma$ ${\widehat {\sigma }}^{2}$ ${\widehat {\sigma }}$

正式には、最大尤度推定量は $\theta =(\mu ,\sigma ^{2})$

${\widehat {\theta \,}}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).$

この場合、MLEは個別に取得できます。ただし、一般的にはそうはいかない場合があり、MLEは同時に取得する必要があります。

正規対数尤度が最大になると、次のような非常に単純な形になります。

$\log {\Bigl (}{\mathcal {L}}({\widehat {\mu }},{\widehat {\sigma }}){\Bigr )}={\frac {\,-n\;\;}{2}}{\bigl (}\,\log(2\pi {\widehat {\sigma }}^{2})+1\,{\bigr )}$

この最大対数尤度は、より一般的な最小二乗法、さらには非線形最小二乗法でも同様であることが示されます。これは、尤度に基づく近似信頼区間や信頼領域を決定する際によく用いられ、一般的に、前述の漸近正規分布を用いたものよりも精度が高くなります。

非独立変数

変数は相関関係にある場合もあれば、より一般的には独立ではない場合もあります。2つの確率変数とが独立であるのは、それらの結合確率密度関数が個々の確率密度関数の積である場合のみです。つまり、 $y_{1}$ $y_{2}$

$f(y_{1},y_{2})=f(y_{1})f(y_{2})\,$

ランダム変数からn次ガウスベクトルを構築するとします。ここで、各変数の平均はで与えられます。さらに、共分散行列をと表します。すると、これらのn 個のランダム変数の結合確率密度関数は、次式で与えられる多変量正規分布に従います。 $(y_{1},\ldots ,y_{n})$ $(\mu _{1},\ldots ,\mu _{n})$ ${\mathit {\Sigma }}$

$f(y_{1},\ldots ,y_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {\det({\mathit {\Sigma }})}}}}\exp \left(-{\frac {1}{2}}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]{\mathit {\Sigma }}^{-1}\left[y_{1}-\mu _{1},\ldots ,y_{n}-\mu _{n}\right]^{\mathrm {T} }\right)$

二変量の場合、結合確率密度関数は次のように与えられます。

$f(y_{1},y_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(y_{1}-\mu _{1})^{2}}{\sigma _{1}^{2}}}-{\frac {2\rho (y_{1}-\mu _{1})(y_{2}-\mu _{2})}{\sigma _{1}\sigma _{2}}}+{\frac {(y_{2}-\mu _{2})^{2}}{\sigma _{2}^{2}}}\right)\right]$

この場合や、結合密度関数が存在するその他の場合では、この密度を使用して、尤度関数は上記の「原則」セクションで定義されます。

例

$X_{1},\ X_{2},\ldots ,\ X_{m}$ は1からmまでのセル/ボックス内のカウントです。各ボックスには異なる確率があり（ボックスが大きいか小さいかを考えてください）、落ちるボールの数はに固定されています。各ボックスの確率はですが、制約条件はです。これは、 sが独立でない場合です。ベクトルの結合確率は多項式と呼ばれ、次の形式になります。 $n$ $x_{1}+x_{2}+\cdots +x_{m}=n$ $p_{i}$ $p_{1}+p_{2}+\cdots +p_{m}=1$ $X_{i}$ $x_{1},\ x_{2},\ldots ,x_{m}$

$f(x_{1},x_{2},\ldots ,x_{m}\mid p_{1},p_{2},\ldots ,p_{m})={\frac {n!}{\prod x_{i}!}}\prod p_{i}^{x_{i}}={\binom {n}{x_{1},x_{2},\ldots ,x_{m}}}p_{1}^{x_{1}}p_{2}^{x_{2}}\cdots p_{m}^{x_{m}}$

各ボックスを他のすべてのボックスに対して個別に見ると二項式となり、これはその拡張です。

この対数尤度は次のようになります。

$\ell (p_{1},p_{2},\ldots ,p_{m})=\log n!-\sum _{i=1}^{m}\log x_{i}!+\sum _{i=1}^{m}x_{i}\log p_{i}$

制約を考慮してラグランジュ乗数を使用する必要があります。

$L(p_{1},p_{2},\ldots ,p_{m},\lambda )=\ell (p_{1},p_{2},\ldots ,p_{m})+\lambda \left(1-\sum _{i=1}^{m}p_{i}\right)$

すべての導関数を0とすると、最も自然な推定値が導かれる。

${\hat {p}}_{i}={\frac {x_{i}}{n}}$

制約の有無にかかわらず対数尤度を最大化することは、閉じた形式では解決できない問題になる可能性があり、その場合は反復的な手順を使用する必要があります。

反復手順

特別な場合を除いて、尤度方程式は ${\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}=0$

推定量に対しては明示的に解くことはできない。代わりに、反復的に解く必要がある。つまり、（例えばの初期推定値から始めて）収束する数列を求める。この種の最適化問題には多くの手法があるが^[35]^[36]、最も一般的に用いられるのは、次のような更新式に基づくアルゴリズムである。 ${\widehat {\theta }}={\widehat {\theta }}(\mathbf {y} )$ $\theta$ ${\widehat {\theta }}_{1}$ $\left\{{\widehat {\theta }}_{r}\right\}$ ${\widehat {\theta }}_{r+1}={\widehat {\theta }}_{r}+\eta _{r}\mathbf {d} _{r}\left({\widehat {\theta }}\right)$

ここでベクトルはr番目の「ステップ」の下降方向を示し、スカラーは「ステップ長」^[37]^{[38] 、}学習率^[39]としても知られる。 $\mathbf {d} _{r}\left({\widehat {\theta }}\right)$ $\eta _{r}$

勾配降下法方法

（注：ここでは最大化問題なので、勾配の前の符号は反転しています）

$\eta _{r}\in \mathbb {R} ^{+}$ 収束するには十分小さく、 $\mathbf {d} _{r}\left({\widehat {\theta }}\right)=\nabla \ell \left({\widehat {\theta }}_{r};\mathbf {y} \right)$

勾配降下法では、 r回目の反復における勾配を計算する必要がありますが、2階微分の逆行列、すなわちヘッセ行列を計算する必要はありません。そのため、ニュートン-ラプソン法よりも計算速度が速くなります。

ニュートン・ラプソン法

$\eta _{r}=1$ そして $\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)\mathbf {s} _{r}\left({\widehat {\theta }}\right)$

ここで、はスコアであり、は対数尤度関数のヘッセ行列の逆行列であり、どちらもr番目の反復を評価した。^[40]^[41]しかし、ヘッセ行列の計算は計算コストが高いため、多くの代替手法が提案されている。よく使われるベルント・ホール・ホール・ハウスマンアルゴリズムは、期待勾配の外積でヘッセ行列を近似し、 $\mathbf {s} _{r}({\widehat {\theta }})$ $\mathbf {H} _{r}^{-1}\left({\widehat {\theta }}\right)$

$\mathbf {d} _{r}\left({\widehat {\theta }}\right)=-\left[{\frac {1}{n}}\sum _{t=1}^{n}{\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\left({\frac {\partial \ell (\theta ;\mathbf {y} )}{\partial \theta }}\right)^{\mathsf {T}}\right]^{-1}\mathbf {s} _{r}\left({\widehat {\theta }}\right)$

準ニュートン法

その他の準ニュートン法では、より複雑なセカント更新を使用してヘッセ行列の近似値を求めます。

ダビドン・フレッチャー・パウエル式

DFP 式は、対称、正定値、および 2 次導関数の現在の近似値に最も近い解を見つけます。 $\mathbf {H} _{k+1}=\left(I-\gamma _{k}y_{k}s_{k}^{\mathsf {T}}\right)\mathbf {H} _{k}\left(I-\gamma _{k}s_{k}y_{k}^{\mathsf {T}}\right)+\gamma _{k}y_{k}y_{k}^{\mathsf {T}},$

どこ

$y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),$ $\gamma _{k}={\frac {1}{y_{k}^{\mathsf {T}}s_{k}}},$ $s_{k}=x_{k+1}-x_{k}.$

ブロイデン・フレッチャー・ゴールドファーブ・シャノアルゴリズム

BFGS は対称かつ正定値の解も提供します。

$B_{k+1}=B_{k}+{\frac {y_{k}y_{k}^{\mathsf {T}}}{y_{k}^{\mathsf {T}}s_{k}}}-{\frac {B_{k}s_{k}s_{k}^{\mathsf {T}}B_{k}^{\mathsf {T}}}{s_{k}^{\mathsf {T}}B_{k}s_{k}}}\ ,$

どこ

$y_{k}=\nabla \ell (x_{k}+s_{k})-\nabla \ell (x_{k}),$ $s_{k}=x_{k+1}-x_{k}.$

BFGS法は、関数が最適解近傍で2次テイラー展開を持つ場合を除いて収束が保証されません。しかし、BFGSは非滑らかな最適化例でも許容できる性能を発揮します。

フィッシャーの得点

もう一つの一般的な方法は、ヘッセ行列をフィッシャー情報行列,に置き換えてフィッシャースコアリングアルゴリズムを得るというものです。この手順は、一般化線形モデルなど、多くの手法の推定において標準的なものです。 ${\mathcal {I}}(\theta )=\operatorname {\mathbb {E} } \left[\mathbf {H} _{r}\left({\widehat {\theta }}\right)\right]$

準ニュートン法は広く用いられているものの、必ずしも局所的最大値や大域的最大値ではなく、局所的最小値や鞍点に収束する可能性がある。 ^{[42]したがって、得られた}尤度方程式の解の妥当性を評価するために、解において評価されたヘッセ行列が負定値かつ条件付きであることを検証することが重要である。^[43]

歴史

最大尤度法の初期の使用者としては、カール・フリードリヒ・ガウス、ピエール＝シモン・ラプラス、ソルヴァルド・N・ティーレ、フランシス・イシドロ・エッジワースなどが挙げられます。^[44]^[45]しかし、1912年から1922年の間に、この方法の現代版を独力で考案したのはロナルド・フィッシャーでした。^[46]^[47]

最大尤度推定は、1938年にサミュエル・S・ウィルクスが発表した証明（現在ではウィルクスの定理と呼ばれている）によって、ついにヒューリスティックな正当性を超越した^。 [ 48 ]この定理は^、複数の独立した観測値からの推定値の対数尤度値の誤差が漸近的にχ2 分布することを示しており、これによりパラメータの任意の推定値の周囲の信頼領域を容易に決定することができる。ウィルクスの証明の唯一の難しい部分は、フィッシャー情報行列の期待値に依存しており、これはフィッシャーによって証明された定理によって提供される。^[49]ウィルクスは生涯を通じて定理の一般性を改良し続け、1962年に最も一般的な証明を発表した。^[50]

最大尤度推定法の開発については多くの著者によってレビューがなされている。^[51]^[52]^[53]^[54]^[55]^[56]^[57]^[58]

参照

その他の推定方法

一般化モーメント法：最大尤度推定における尤度方程式に関連する手法
M推定量：ロバスト統計で使用されるアプローチ
最大事後確率（MAP）推定値：事前知識が仮定されている場合の推定値の計算方法の対比
最大間隔推定：多くの状況でより堅牢な関連手法
最大エントロピー推定
モーメント法（統計）：分布のパラメータを求めるもう一つの一般的な方法
支持法、最大尤度法のバリエーション
最小距離推定
パネルデータの部分尤度法
準最大尤度推定量：誤って指定されているが、それでも一貫性のあるMLE推定量
制限付き最大尤度: 変換されたデータセットから計算された尤度関数を使用するバリエーション

参考文献

^ ロッシ、リチャード・J. (2018). 『数理統計学：尤度に基づく推論入門』ニューヨーク：ジョン・ワイリー・アンド・サンズ. p. 227. ISBN 978-1-118-77104-4。
^ ヘンドリー、デイビッド・F.、ニールセン、ベント（2007年）『計量経済モデリング：尤度アプローチ』プリンストン：プリンストン大学出版局、ISBN 978-0-691-13128-3。
^ チェンバース, レイモンド L.; スティール, デイビッド G.; ワン, スオジン; ウェルシュ, アラン (2012).標本調査における最大尤度推定. ボカラトン: CRC プレス. ISBN 978-1-58488-632-7。
^ Ward, Michael Don ; Ahlquist, John S. (2018). 『社会科学のための最大尤度：分析戦略』ニューヨーク：ケンブリッジ大学出版局. ISBN 978-1-107-18582-1。
^ Press, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). 「最大尤度推定量としての最小二乗法」. 『FORTRANによる数値計算法：科学計算の技法』（第2版）. ケンブリッジ: ケンブリッジ大学出版局. pp. 651– 655. ISBN 0-521-43064-X。
^ Myung, IJ (2003). 「最大尤度推定に関するチュートリアル」.数学心理学ジャーナル. 47 (1): 90– 100. doi :10.1016/S0022-2496(02)00028-7.
^ グーリエロウ、クリスチャン、モンフォート、アラン (1995).統計と計量経済モデル. ケンブリッジ大学出版局. p. 161. ISBN 0-521-40551-3。
^ ケイン、エドワード・J. (1968). 『経済統計と計量経済学』ニューヨーク、NY: ハーパー＆ロウ、p. 179.
^ Small, Christoper G.; Wang, Jinfang (2003). 「根を使った作業」.非線形方程式の数値解析法. オックスフォード大学出版局. pp. 74– 124. ISBN 0-19-850688-0。
^ Kass, Robert E.; Vos, Paul W. (1997). 漸近推論の幾何学的基礎. ニューヨーク: John Wiley & Sons. p. 14. ISBN 0-471-82668-5。
^ Papadopoulos, Alecos (2013年9月25日). 「MLE（最大尤度推定）を使用する際に、なぜ常に結合pdfの前にlog()を置く必要があるのか？」Stack Exchange .
^ ab Silvey, SD (1975). 統計的推論. ロンドン, イギリス: Chapman and Hall. p. 79. ISBN 0-412-13820-4。
^ Olive, David (2004). 「MLEは尤度を最大化するか？」(PDF) .南イリノイ大学.
^ Schwallie, Daniel P. (1985). 「正定値最大尤度共分散推定量」. Economics Letters . 17 ( 1–2 ): 115–117 . doi :10.1016/0165-1765(85)90139-9.
^ Magnus, Jan R. (2017).計量経済学理論入門. アムステルダム: VU大学出版局. pp. 64– 65. ISBN 978-90-8659-766-6。
^ ファンツァグル（1994年、206ページ）
^ Newey, Whitney K.; McFadden, Daniel (1994). 「第36章大規模サンプル推定と仮説検定」の定理2.5による。Engle , Robert; McFadden, Dan (編). Handbook of Econometrics, Vol.4 . Elsevier Science. pp. 2111– 2245. ISBN 978-0-444-88766-5。
^ ab Newey, Whitney K.; McFadden, Daniel (1994). 「第36章：大規模サンプル推定と仮説検定」の定理3.3による。Engle , Robert; McFadden, Dan (編). Handbook of Econometrics, Vol.4 . Elsevier Science. pp. 2111– 2245. ISBN 978-0-444-88766-5。
^ ザックス、シェレミヤフ (1971). 『統計的推論の理論』ニューヨーク: ジョン・ワイリー・アンド・サンズ. p. 223. ISBN 0-471-98103-6。
^ Cox, David R. ; Snell, E. Joyce (1968). 「残差の一般的な定義」Journal of the Royal Statistical Society, Series B . 30 (2): 248– 275. doi :10.1111/j.2517-6161.1968.tb00724.x. JSTOR 2984505.の式 20を参照。
^ 加納豊 (1996). 「三次効率は四次効率を意味する」.日本統計学会誌. 26 : 101–117 . doi : 10.14490/jjss1995.26.101 .
^ Christensen, Henrikt I. 「パターン認識」（PDF）（講義）。ベイズ決定理論 - CS 7616。ジョージア工科大学。
^ cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96)、Kullback–Leibler ダイバージェンス、URL (バージョン: 2017-11-18): https://stats.stackexchange.com/q/314472 (YouTube 動画の 13 分から 25 分をご覧ください)
^ 統計的推論入門 | スタンフォード大学（講義16 — モデルの誤指定下でのMLE）
^ Sycorax says Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica)、尤度の最大化とクロスエントロピーの最小化の関係、URL (バージョン: 2019-11-06): https://stats.stackexchange.com/q/364237
^ Coles, Stuart (2001). 極値統計モデリング入門. Springer Series in Statistics. doi :10.1007/978-1-4471-3675-0. ISBN 978-1-84996-874-4. ISSN 0172-7397.
^ 極値の統計分析. 2007. doi :10.1007/978-3-7643-7399-3. ISBN 978-3-7643-7230-9。
^ エンブレヒト、ポール;クルッペルベルク、クラウディア。トーマス・ミコシュ (1997)。極端なイベントのモデリング。土井：10.1007/978-3-642-33483-2。ISBN 978-3-642-08242-9。
^ 損失モデル. Wileyシリーズ確率統計. 2013. doi :10.1002/9781118787106. ISBN 978-1-118-34356-2。
^ Gerrard, R.; Tsanakas, A. (2011). 「パラメータの不確実性下における故障確率」 .リスク分析. 31 (5): 727– 744. Bibcode :2011RiskA..31..727G. doi :10.1111/j.1539-6924.2010.01549.x. ISSN 1539-6924. PMID 21175720.
^ ジューソン, スティーブン; スウィーティング, トレバー; ジューソン, リン (2025-02-20). 「事前検定を用いた極端気象リスク評価における信頼性バイアスの低減」.統計気候学、気象学、海洋学の進歩. 11 (1): 1– 22. Bibcode :2025ASCMO..11....1J. doi : 10.5194/ascmo-11-1-2025 . ISSN 2364-3579.
^ Severini, Thomas A.; Mukerjee, Rahul; Ghosh, Malay (2002-12-01). 「右不変事前分布の正確な確率マッチング特性について」 . Biometrika . 89 (4): 952– 957. doi :10.1093/biomet/89.4.952. ISSN 0006-3444.
^ Gerrard, R.; Tsanakas, A. (2011). 「パラメータの不確実性下における故障確率」 .リスク分析. 31 (5): 727– 744. Bibcode :2011RiskA..31..727G. doi :10.1111/j.1539-6924.2010.01549.x. ISSN 1539-6924. PMID 21175720.
^ ジューソン, スティーブン; スウィーティング, トレバー; ジューソン, リン (2025-02-20). 「事前検定を用いた極端気象リスク評価における信頼性バイアスの低減」.統計気候学、気象学、海洋学の進歩. 11 (1): 1– 22. Bibcode :2025ASCMO..11....1J. doi : 10.5194/ascmo-11-1-2025 . ISSN 2364-3579.
^ Fletcher, R. (1987). 『最適化の実践的手法』（第2版）. ニューヨーク: John Wiley & Sons. ISBN 0-471-91547-5。
^ Nocedal, Jorge ; Wright, Stephen J. (2006).数値最適化（第2版）. ニューヨーク：Springer. ISBN 0-387-30303-0。
^ ダガンゾ、カルロス（1979年）『多項式プロビット：理論と需要予測への応用』ニューヨーク：アカデミック・プレス、pp. 61– 78、ISBN 0-12-201150-3。
^ ウィリアム・グールド、ジェフリー・ピットブラッド、ブライアン・ポイ (2010). Stataによる最大尤度推定（第4版）. カレッジステーション: Stata Press. pp. 13– 20. ISBN 978-1-59718-078-8。
^ マーフィー、ケビン・P. (2012). 『機械学習：確率論的視点』ケンブリッジ：MIT出版. p. 247. ISBN 978-0-262-01802-9。
^ 雨宮毅(1985). 『アドバンスト・エコノメトリクス』ケンブリッジ: ハーバード大学出版局. pp. 137–138. ISBN 0-674-00560-0。
^ サーガン、デニス(1988). 「数値最適化法」.上級計量経済理論講義ノート. オックスフォード: バジル・ブラックウェル. pp. 161– 169. ISBN 0-631-14956-2。
^ 定理10.1については、 Avriel, Mordecai (1976). Nonlinear Programming: Analysis and Methods. Englewood Cliffs, NJ: Prentice-Hall. pp. 293– 294. ISBNを参照。 978-0-486-43227-4。
^ ギル, フィリップ E.; マレー, ウォルター;ライト, マーガレット H. (1981). 『実用最適化』ロンドン, 英国: アカデミック・プレス. pp. 312–313. ISBN 0-12-283950-1。
^ エッジワース, フランシス・Y. (1908年9月). 「頻度定数の確率誤差について」.王立統計学会誌. 71 (3): 499– 512. doi :10.2307/2339293. JSTOR 2339293.
^ エッジワース, フランシス・Y. (1908年12月). 「頻度定数の確率誤差について」.王立統計学会誌. 71 (4): 651– 678. doi :10.2307/2339378. JSTOR 2339378.
^ プファングル、ヨハン (1994)。パラメトリック統計理論。ウォルター・デ・グルイテル。ページ 207–208。土井:10.1515/9783110889765。ISBN 978-3-11-013863-4. MR 1291393。
^ Hald, Anders (1999). 「逆確率法と最小二乗法との関係における最大尤度の歴史について」.統計科学. 14 (2): 214– 222. doi :10.1214/ss/1009212248. ISSN 0883-4237. JSTOR 2676741.
^ Wilks, SS (1938). 「複合仮説検定における尤度比の大標本分布」Annals of Mathematical Statistics 9 : 60–62 . doi : 10.1214/aoms / 1177732360 .
^ Owen, Art B. (2001). Empirical Likelihood . ロンドン、イギリス; ボカラトン、フロリダ: Chapman & Hall; CRC Press. ISBN 978-1-58488-071-4。
^ ウィルクス、サミュエル・S. (1962). 『数理統計学』ニューヨーク、ニューヨーク：ジョン・ワイリー・アンド・サンズ. ISBN 978-0-471-94650-2。 {{cite book}}: ISBN / Date incompatibility (help)
^ サベージ、レナード・J. (1976). 「RAフィッシャーの再読について」.統計年報. 4 (3): 441– 500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.
^ Pratt, John W. (1976). 「FY EdgeworthとRA Fisherによる最大尤度推定の効率性について」. The Annals of Statistics . 4 (3): 501– 514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.
^ スティグラー、スティーブン・M. (1978). 「フランシス・イシドロ・エッジワース、統計学者」.王立統計学会誌、シリーズA. 141 ( 3): 287– 322. doi :10.2307/2344804. JSTOR 2344804.
^ スティグラー、スティーブン・M. (1986). 統計の歴史：1900年以前の不確実性の測定. ハーバード大学出版局. ISBN 978-0-674-40340-6。
^ スティグラー、スティーブン・M. (1999). 『表の上の統計：統計概念と手法の歴史』ハーバード大学出版局. ISBN 978-0-674-83601-3。
^ Hald, Anders (1998). 『1750年から1930年までの数理統計学の歴史』ニューヨーク: Wiley. ISBN 978-0-471-17912-2。
^ Hald, Anders (1999). 「最大尤度法の歴史と逆確率法および最小二乗法との関係について」.統計科学. 14 (2): 214– 222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
^ アルドリッチ, ジョン (1997). 「RAフィッシャーと最大尤度法の成立 1912–1922」.統計科学. 12 (3): 162– 176. doi : 10.1214/ss/1030037906 . MR 1617519.

さらに読む

Cramer, JS (1986). 最尤法の計量経済学的応用. ニューヨーク: Cambridge University Press. ISBN 0-521-25317-9。
エリアソン、スコット・R. (1993). 『最大尤度推定：論理と実践』ニューベリーパーク：セージ社. ISBN 0-8039-4107-2。
キング、ゲイリー（1989年）『統一政治方法論：統計的推論の類似理論』ケンブリッジ大学出版局、ISBN 0-521-36697-6。
ル・カム、ルシアン(1990). 「最大尤度：入門」. ISIレビュー. 58 (2): 153–171 . doi :10.2307/1403464. JSTOR 1403464.
マグナス、ヤン・R. (2017). 「最大尤度」.計量経済学理論入門. アムステルダム, オランダ: VU大学出版局. pp. 53– 68. ISBN 978-90-8659-766-6。
ミラー、ラッセル・B. (2011).最大尤度推定と推論. ホーボーケン、ニュージャージー州: Wiley. ISBN 978-0-470-09482-2。
ピクルス、アンドリュー（1986）『尤度分析入門』ノーウィッチ：WHハッチンズ・アンド・サンズ、ISBN 0-86094-190-6。
セヴェリーニ、トーマス・A. (2000).統計における尤度法. ニューヨーク: オックスフォード大学出版局. ISBN 0-19-850650-3。
ウォード、マイケル・D.、アールキスト、ジョン・S.（2018年）『社会科学のための最大尤度：分析戦略』ケンブリッジ大学出版局、ISBN 978-1-316-63682-4。

外部リンク

Tilevik, Andreas (2022). 線形回帰における最大尤度法と最小二乗法（ビデオ）
「最大尤度法」、数学百科事典、EMS Press、2001 [1994]
パーセル、S.「最大尤度推定」。
サージェント、トーマス、スタチャースキー、ジョン。「最大尤度推定」。Pythonによる定量経済学。
オット、トゥーメット。ヘニングセン、アルネ (2019-05-19)。「maxLik: R の最尤推定用パッケージ」。
レッサー、ローレンス・M. (2007). 「『MLE』の歌詞」.テキサス大学理学部数学科学科.エルパソ, テキサス州. 2021年3月6日閲覧.

[1] ロッシ、リチャード・J. (2018). 『数理統計学：尤度に基づく推論入門』ニューヨーク：ジョン・ワイリー・アンド・サンズ. p. 227. ISBN 978-1-118-77104-4。

[2] ヘンドリー、デイビッド・F.、ニールセン、ベント（2007年）『計量経済モデリング：尤度アプローチ』プリンストン：プリンストン大学出版局、ISBN 978-0-691-13128-3。

[3] チェンバース, レイモンド L.; スティール, デイビッド G.; ワン, スオジン; ウェルシュ, アラン (2012).標本調査における最大尤度推定. ボカラトン: CRC プレス. ISBN 978-1-58488-632-7。

[4] Ward, Michael Don ; Ahlquist, John S. (2018). 『社会科学のための最大尤度：分析戦略』ニューヨーク：ケンブリッジ大学出版局. ISBN 978-1-107-18582-1。

[5] Press, WH; Flannery, BP; Teukolsky, SA; Vetterling, WT (1992). 「最大尤度推定量としての最小二乗法」. 『FORTRANによる数値計算法：科学計算の技法』（第2版）. ケンブリッジ: ケンブリッジ大学出版局. pp. 651– 655. ISBN 0-521-43064-X。

[:0-6] Myung, IJ (2003). 「最大尤度推定に関するチュートリアル」.数学心理学ジャーナル. 47 (1): 90– 100. doi :10.1016/S0022-2496(02)00028-7.

[7] グーリエロウ、クリスチャン、モンフォート、アラン (1995).統計と計量経済モデル. ケンブリッジ大学出版局. p. 161. ISBN 0-521-40551-3。

[8] ケイン、エドワード・J. (1968). 『経済統計と計量経済学』ニューヨーク、NY: ハーパー＆ロウ、p. 179.

[9] Small, Christoper G.; Wang, Jinfang (2003). 「根を使った作業」.非線形方程式の数値解析法. オックスフォード大学出版局. pp. 74– 124. ISBN 0-19-850688-0。

[10] Kass, Robert E.; Vos, Paul W. (1997). 漸近推論の幾何学的基礎. ニューヨーク: John Wiley & Sons. p. 14. ISBN 0-471-82668-5。

[11] Papadopoulos, Alecos (2013年9月25日). 「MLE（最大尤度推定）を使用する際に、なぜ常に結合pdfの前にlog()を置く必要があるのか？」Stack Exchange .

[Silvey_p79-12] Silvey, SD (1975). 統計的推論. ロンドン, イギリス: Chapman and Hall. p. 79. ISBN 0-412-13820-4。

[13] Olive, David (2004). 「MLEは尤度を最大化するか？」(PDF) .南イリノイ大学.

[14] Schwallie, Daniel P. (1985). 「正定値最大尤度共分散推定量」. Economics Letters . 17 ( 1–2 ): 115–117 . doi :10.1016/0165-1765(85)90139-9.

[15] Magnus, Jan R. (2017).計量経済学理論入門. アムステルダム: VU大学出版局. pp. 64– 65. ISBN 978-90-8659-766-6。

[16] ファンツァグル（1994年、206ページ）

[17] Newey, Whitney K.; McFadden, Daniel (1994). 「第36章大規模サンプル推定と仮説検定」の定理2.5による。Engle , Robert; McFadden, Dan (編). Handbook of Econometrics, Vol.4 . Elsevier Science. pp. 2111– 2245. ISBN 978-0-444-88766-5。

[:1-18] Newey, Whitney K.; McFadden, Daniel (1994). 「第36章：大規模サンプル推定と仮説検定」の定理3.3による。Engle , Robert; McFadden, Dan (編). Handbook of Econometrics, Vol.4 . Elsevier Science. pp. 2111– 2245. ISBN 978-0-444-88766-5。

[19] ザックス、シェレミヤフ (1971). 『統計的推論の理論』ニューヨーク: ジョン・ワイリー・アンド・サンズ. p. 223. ISBN 0-471-98103-6。

[20] Cox, David R. ; Snell, E. Joyce (1968). 「残差の一般的な定義」Journal of the Royal Statistical Society, Series B . 30 (2): 248– 275. doi :10.1111/j.2517-6161.1968.tb00724.x. JSTOR 2984505.の式 20を参照。

[21] 加納豊 (1996). 「三次効率は四次効率を意味する」.日本統計学会誌. 26 : 101–117 . doi : 10.14490/jjss1995.26.101 .

[22] Christensen, Henrikt I. 「パターン認識」（PDF）（講義）。ベイズ決定理論 - CS 7616。ジョージア工科大学。

[23] x96 (https://stats.stackexchange.com/users/177679/cmplx96)、Kullback–Leibler ダイバージェンス、URL (バージョン: 2017-11-18): https://stats.stackexchange.com/q/314472 (YouTube 動画の 13 分から 25 分をご覧ください)

[24] 統計的推論入門 | スタンフォード大学（講義16 — モデルの誤指定下でのMLE）

[25] Sycorax says Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica)、尤度の最大化とクロスエントロピーの最小化の関係、URL (バージョン: 2019-11-06): https://stats.stackexchange.com/q/364237

[26] Coles, Stuart (2001). 極値統計モデリング入門. Springer Series in Statistics. doi :10.1007/978-1-4471-3675-0. ISBN 978-1-84996-874-4. ISSN 0172-7397.

[27] 極値の統計分析. 2007. doi :10.1007/978-3-7643-7399-3. ISBN 978-3-7643-7230-9。

[28] エンブレヒト、ポール;クルッペルベルク、クラウディア。トーマス・ミコシュ (1997)。極端なイベントのモデリング。土井：10.1007/978-3-642-33483-2。ISBN 978-3-642-08242-9。

[29] 損失モデル. Wileyシリーズ確率統計. 2013. doi :10.1002/9781118787106. ISBN 978-1-118-34356-2。

[30] Gerrard, R.; Tsanakas, A. (2011). 「パラメータの不確実性下における故障確率」 .リスク分析. 31 (5): 727– 744. Bibcode :2011RiskA..31..727G. doi :10.1111/j.1539-6924.2010.01549.x. ISSN 1539-6924. PMID 21175720.

[31] ジューソン, スティーブン; スウィーティング, トレバー; ジューソン, リン (2025-02-20). 「事前検定を用いた極端気象リスク評価における信頼性バイアスの低減」.統計気候学、気象学、海洋学の進歩. 11 (1): 1– 22. Bibcode :2025ASCMO..11....1J. doi : 10.5194/ascmo-11-1-2025 . ISSN 2364-3579.

[32] Severini, Thomas A.; Mukerjee, Rahul; Ghosh, Malay (2002-12-01). 「右不変事前分布の正確な確率マッチング特性について」 . Biometrika . 89 (4): 952– 957. doi :10.1093/biomet/89.4.952. ISSN 0006-3444.

[33] Gerrard, R.; Tsanakas, A. (2011). 「パラメータの不確実性下における故障確率」 .リスク分析. 31 (5): 727– 744. Bibcode :2011RiskA..31..727G. doi :10.1111/j.1539-6924.2010.01549.x. ISSN 1539-6924. PMID 21175720.

[34] ジューソン, スティーブン; スウィーティング, トレバー; ジューソン, リン (2025-02-20). 「事前検定を用いた極端気象リスク評価における信頼性バイアスの低減」.統計気候学、気象学、海洋学の進歩. 11 (1): 1– 22. Bibcode :2025ASCMO..11....1J. doi : 10.5194/ascmo-11-1-2025 . ISSN 2364-3579.

[35] Fletcher, R. (1987). 『最適化の実践的手法』（第2版）. ニューヨーク: John Wiley & Sons. ISBN 0-471-91547-5。

[36] Nocedal, Jorge ; Wright, Stephen J. (2006).数値最適化（第2版）. ニューヨーク：Springer. ISBN 0-387-30303-0。

[37] ダガンゾ、カルロス（1979年）『多項式プロビット：理論と需要予測への応用』ニューヨーク：アカデミック・プレス、pp. 61– 78、ISBN 0-12-201150-3。

[38] ウィリアム・グールド、ジェフリー・ピットブラッド、ブライアン・ポイ (2010). Stataによる最大尤度推定（第4版）. カレッジステーション: Stata Press. pp. 13– 20. ISBN 978-1-59718-078-8。

[39] マーフィー、ケビン・P. (2012). 『機械学習：確率論的視点』ケンブリッジ：MIT出版. p. 247. ISBN 978-0-262-01802-9。

[40] 雨宮毅(1985). 『アドバンスト・エコノメトリクス』ケンブリッジ: ハーバード大学出版局. pp. 137–138. ISBN 0-674-00560-0。

[41] サーガン、デニス(1988). 「数値最適化法」.上級計量経済理論講義ノート. オックスフォード: バジル・ブラックウェル. pp. 161– 169. ISBN 0-631-14956-2。

[42] 定理10.1については、 Avriel, Mordecai (1976). Nonlinear Programming: Analysis and Methods. Englewood Cliffs, NJ: Prentice-Hall. pp. 293– 294. ISBNを参照。 978-0-486-43227-4。

[43] ギル, フィリップ E.; マレー, ウォルター;ライト, マーガレット H. (1981). 『実用最適化』ロンドン, 英国: アカデミック・プレス. pp. 312–313. ISBN 0-12-283950-1。

[44] エッジワース, フランシス・Y. (1908年9月). 「頻度定数の確率誤差について」.王立統計学会誌. 71 (3): 499– 512. doi :10.2307/2339293. JSTOR 2339293.

[45] エッジワース, フランシス・Y. (1908年12月). 「頻度定数の確率誤差について」.王立統計学会誌. 71 (4): 651– 678. doi :10.2307/2339378. JSTOR 2339378.

[Pfanzagl-46] プファングル、ヨハン (1994)。パラメトリック統計理論。ウォルター・デ・グルイテル。ページ 207–208。土井:10.1515/9783110889765。ISBN 978-3-11-013863-4. MR 1291393。

[47] Hald, Anders (1999). 「逆確率法と最小二乗法との関係における最大尤度の歴史について」.統計科学. 14 (2): 214– 222. doi :10.1214/ss/1009212248. ISSN 0883-4237. JSTOR 2676741.

[48] Wilks, SS (1938). 「複合仮説検定における尤度比の大標本分布」Annals of Mathematical Statistics 9 : 60–62 . doi : 10.1214/aoms / 1177732360 .

[49] Owen, Art B. (2001). Empirical Likelihood . ロンドン、イギリス; ボカラトン、フロリダ: Chapman & Hall; CRC Press. ISBN 978-1-58488-071-4。

[50] ウィルクス、サミュエル・S. (1962). 『数理統計学』ニューヨーク、ニューヨーク：ジョン・ワイリー・アンド・サンズ. ISBN 978-0-471-94650-2。 {{cite book}}: ISBN / Date incompatibility (help)

[51] サベージ、レナード・J. (1976). 「RAフィッシャーの再読について」.統計年報. 4 (3): 441– 500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.

[52] Pratt, John W. (1976). 「FY EdgeworthとRA Fisherによる最大尤度推定の効率性について」. The Annals of Statistics . 4 (3): 501– 514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.

[53] スティグラー、スティーブン・M. (1978). 「フランシス・イシドロ・エッジワース、統計学者」.王立統計学会誌、シリーズA. 141 ( 3): 287– 322. doi :10.2307/2344804. JSTOR 2344804.

[54] スティグラー、スティーブン・M. (1986). 統計の歴史：1900年以前の不確実性の測定. ハーバード大学出版局. ISBN 978-0-674-40340-6。

[55] スティグラー、スティーブン・M. (1999). 『表の上の統計：統計概念と手法の歴史』ハーバード大学出版局. ISBN 978-0-674-83601-3。

[56] Hald, Anders (1998). 『1750年から1930年までの数理統計学の歴史』ニューヨーク: Wiley. ISBN 978-0-471-17912-2。

[57] Hald, Anders (1999). 「最大尤度法の歴史と逆確率法および最小二乗法との関係について」.統計科学. 14 (2): 214– 222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.

[58] アルドリッチ, ジョン (1997). 「RAフィッシャーと最大尤度法の成立 1912–1922」.統計科学. 12 (3): 162– 176. doi : 10.1214/ss/1030037906 . MR 1617519.