経験ベイズ法

経験ベイズ法は、データから事前確率分布を推定する統計的推論の手順です。このアプローチは、データが観測される前に事前分布が固定される標準的なベイズ法とは対照的です。この視点の違いにもかかわらず、経験ベイズは、階層モデルの完全なベイズ的処理の近似と見なすことができます。階層の最上位レベルのパラメータは、積分されるのではなく、最も可能性の高い値に設定されます。^[1]

はじめに

経験ベイズ法は、階層的ベイズモデルの完全なベイズ的処理の近似として見ることができます

例えば、2段階階層ベイズモデルでは、観測データは確率分布に従って観測されていないパラメータの集合から生成されると仮定されます。一方、パラメータは、確率分布に従ってハイパーパラメータによって特徴付けられる母集団から抽出された標本と考えることができます。階層ベイズモデルでは、経験ベイズ近似とは異なり、ハイパーパラメータはパラメータ化されていない分布から抽出されるものとみなされます。 $y=\{y_{1},y_{2},\dots ,y_{n}\}$ $\theta =\{\theta _{1},\theta _{2},\dots ,\theta _{n}\}$ $p(y\mid \theta )\,$ $\theta$ $\eta \,$ $p(\theta \mid \eta )\,$ $\eta \,$ $p(\eta )\,$

したがって、特定の関心量に関する情報は、その情報に直接依存するデータの特性からだけではなく、ハイパーパラメータによって要約された、データ全体から推論されたパラメータの集合全体の特性からも得られます。 $\theta _{i}\;$ $y$ $\theta \;$ $\eta \;$

ベイズの定理を用いると、

p(\theta \mid y)={\frac {p(y\mid \theta )p(\theta )}{p(y)}}={\frac {p(y\mid \theta )}{p(y)}}\int p(\theta \mid \eta )p(\eta )\,d\eta \,.

一般に、この積分は解析的にも記号的にも扱いにくく、数値的手法で評価する必要があります。確率的（ランダム）近似または決定論的近似が使用できます。確率的手法の例としては、マルコフ連鎖モンテカルロ法やモンテカルロサンプリング法などがあります。決定論的近似については、求積法で説明します。

あるいは、この式は次のように書くこともできる。

p(\theta \mid y)=\int p(\theta \mid \eta ,y)p(\eta \mid y)\;d\eta =\int {\frac {p(y\mid \theta )p(\theta \mid \eta )}{p(y\mid \eta )}}p(\eta \mid y)\;d\eta \,,

そして積分の最後の因子は次のように表される。

p(\eta \mid y)=\int p(\eta \mid \theta )p(\theta \mid y)\;d\theta .

これらは、ギブスサンプラーの構造に質的に類似した反復スキームを示唆しており、およびの近似値を段階的に改善していきます。まず、の依存性を完全に無視しての初期近似値を計算し、次にの初期近似分布に基づいての近似値を計算し、これを用いての近似値を更新し、を更新し、といった処理を繰り返します。 $p(\theta \mid y)\;$ $p(\eta \mid y)\;$ $p(\theta \mid y)\;$ $\eta$ $p(\eta \mid y)\;$ $p(\theta \mid y)\;$ $p(\eta \mid y)\;$ $p(\theta \mid y)\;$ $p(\eta \mid y)\;$

真の分布が鋭くピークを描いている場合、確率分布を分布のピーク（あるいはその平均）を表す点推定値に置き換えても、積分の決定はあまり変わらない可能性がある。 $p(\eta \mid y)\;$ $p(\theta \mid y)\;$ $\eta \;$ $\eta ^{*}\;$

p(\theta \mid y)\simeq {\frac {p(y\mid \theta )\;p(\theta \mid \eta ^{*})}{p(y\mid \eta ^{*})}}\,.

この近似により、上記の反復スキームはEM アルゴリズムになります。

「経験ベイズ」という用語は多岐にわたる手法を包含しますが、そのほとんどは上記のスキーム、あるいはそれに非常に類似したスキームの初期の切り捨てと見なすことができます。パラメータについては、分布全体ではなく点推定が通常用いられます。の推定値は通常、の最初の近似値から算出され、その後の精緻化は行われません。の推定値は通常、の適切な事前分布を考慮せずに算出されます。 $\eta \;$ $\eta ^{*}\;$ $p(\theta \mid y)\;$ $\eta ^{*}\;$ $\eta$

点推定

ロビンズ法：ノンパラメトリック経験ベイズ法（NPEB）

ロビンズ^[2]は、混合分布からのサンプリングのケースを検討しました。ここで、各確率（を条件とする）はポアソン分布によって指定されます $y_{i}$ $\theta _{i}$

p(y_{i}\mid \theta _{i})={{\theta _{i}}^{y_{i}}e^{-\theta _{i}} \over {y_{i}}!}

一方、 θの事前分布は、累積分布関数を持つ未知の分布からの独立分布であることを除いては未指定である。複合サンプリングは、事故率や臨床試験など、様々な統計的推定問題で発生する。^[^要出典^]観測されたすべてのデータが与えられた場合、単純にの点予測を求める。事前分布は未指定であるため、 Gに関する情報なしにこれを求める。^[3] $G(\theta )$ $\theta _{i}$

二乗誤差損失（SEL）の下では、条件付き期待値E( θ _i | Y _i = y _i )は予測に用いるのに適切な量である。ポアソン複合サンプリングモデルでは、この量は

\operatorname {E} (\theta _{i}\mid y_{i})={\int (\theta ^{y_{i}+1}e^{-\theta }/{y_{i}}!)\,dG(\theta ) \over {\int (\theta ^{y_{i}}e^{-\theta }/{y_{i}}!)\,dG(\theta })}.

これは分子と分母の両方にを掛けることで簡略化でき、 $({y_{i}}+1)$

\operatorname {E} (\theta _{i}\mid y_{i})={{(y_{i}+1)p_{G}(y_{i}+1)} \over {p_{G}(y_{i})}},

ここでp _Gは、 θをGにわたって積分することによって得られる周辺確率質量関数です。

これを利用するため、ロビンズ^[2]は、経験的頻度（）を使用して周辺分布を推定し、次のように完全にノンパラメトリックな推定値を得ることを提案した。 $\#\{Y_{j}\}$

\operatorname {E} (\theta _{i}\mid y_{i})\approx (y_{i}+1){{\#\{Y_{j}=y_{i}+1\}} \over {\#\{Y_{j}=y_{i}\}}},

ここでは「数」を表します。（グッド・チューリング周波数推定も参照してください。） $\#$

例 – 事故率

ある保険会社の各顧客には「事故率」Θがあり、事故に対する保険がかけられていると仮定します。Θの確率分布は基礎分布であり、未知数です。指定された期間における各顧客の事故件数は、その顧客の事故率に等しい期待値を持つポアソン分布に従います。顧客が実際に経験した事故件数は観測可能な量です。事故率Θの基礎確率分布を推定する大まかな方法は、指定された期間に0、1、2、3、…回の事故に遭う全人口の構成員の割合を、観測された無作為標本における対応する割合として推定することです。これを実行した後、標本内の各顧客の事故率を予測することが望まれます。前述のように、基準期間中の観測された事故件数を与えられた場合、事故率Θの条件付き期待値を使用することができます。したがって、ある顧客が基準期間中に6件の事故に遭った場合、その顧客の推定事故率は7 × [サンプルのうち7件の事故に遭った人の割合] / [サンプルのうち6件の事故に遭った人の割合]となります。k件の事故に遭った人の割合がkの減少関数である場合、顧客の予測事故率は、観測された事故件数よりも低くなることが多いことに注意してください。

この縮小効果は経験的ベイズ分析に典型的です。

ガウス分布

が確率変数で、が観測されるが、が隠れているとします。問題は、の条件付きで、の期待値を求めることです。さらに、、つまり、が分散の多変量ガウス分布であるとします $X,Y$ $Y$ $X$ $X$ $Y$ $Y|X\sim {\mathcal {N}}(X,\Sigma )$ $Y=X+Z$ $Z$ $\Sigma$

次に、多変量ガウス分布の確率密度関数を用いて直接計算することで、式を得る。について積分すると、次式が得られる。特に、これはの事前密度や事後密度にアクセスすることなく、のベイズ推定を行うことができることを意味する。必要なのは、のスコア関数にアクセスできることだけである。これは、スコアベースの生成モデリングに応用できる。^[4] $\Sigma \nabla _{y}\rho (y|x)=\rho (y|x)(x-y)$ $\rho (x)dx$ $\Sigma \nabla _{y}\rho (y)=(\mathbb {E} [x|y]-y)\rho (y)\implies \mathbb {E} [x|y]=y+\Sigma \nabla _{y}\ln \rho (y)$ $X$ $X$ $Y$ $Y$

パラメトリック経験ベイズ

尤度とその事前分布が単純なパラメトリック形式（単純な共役事前分布を持つ 1 次元または 2 次元の尤度関数など）をとる場合、経験ベイズの問題は、経験的測定の完全なセットを使用して周辺パラメータとハイパーパラメータを推定することだけです。たとえば、パラメトリック経験ベイズ点推定と呼ばれる一般的なアプローチの 1 つは、最大尤度推定値（MLE）またはモーメント展開を使用して周辺パラメータを近似することです。これにより、経験的平均と分散でハイパーパラメータを表現できます。この簡素化された周辺分布により、経験的平均を事前分布の点推定に代入できます。結果として得られる事前分布の式は、以下に示すように大幅に簡素化されます。 $m(y\mid \eta )$ $\eta$ $\eta$ $\theta$ $\theta$

一般的なパラメトリック経験ベイズモデルには、ポアソン-ガンマモデル（下記参照）、ベータ二項モデル、ガウス-ガウスモデル、ディリクレ多項モデル、ベイズ線形回帰（下記参照）およびベイズ多変量線形回帰の特定モデルなど、いくつかあります。より高度なアプローチとしては、階層ベイズモデルやベイズ混合モデルなどがあります。

ガウス-ガウスモデル

ガウス-ガウスモデルを用いた経験ベイズ推定の例については、「経験ベイズ推定量」を参照してください

ポアソン・ガンマモデル

例えば、上記の例では、尤度をポアソン分布とし、事前分布を共役事前分布（ガンマ分布（））で指定するとします（ただし、） $G(\alpha ,\beta )$ $\eta =(\alpha ,\beta )$

\rho (\theta \mid \alpha ,\beta )\,d\theta ={\frac {(\theta /\beta )^{\alpha -1}\,e^{-\theta /\beta }}{\Gamma (\alpha )}}\,(d\theta /\beta ){\text{ for }}\theta >0,\alpha >0,\beta >0\,\!.

事後分布もガンマ分布であることを示すのは簡単です。

\rho (\theta \mid y)\propto \rho (y\mid \theta )\rho (\theta \mid \alpha ,\beta ),

ここで、周辺分布はに明示的に依存しないため省略されています。に依存する項を展開すると、事後分布は次のようになります。 $\theta$ $\theta$

\rho (\theta \mid y)\propto (\theta ^{y}\,e^{-\theta })(\theta ^{\alpha -1}\,e^{-\theta /\beta })=\theta ^{y+\alpha -1}\,e^{-\theta (1+1/\beta )}.

したがって、事後密度もガンマ分布（、）となります。また、周辺分布は事後分布を全体にわたって単純に積分したもので、負の二項分布となることにも注意してください。 $G(\alpha ',\beta ')$ $\alpha '=y+\alpha$ $\beta '=(1+1/\beta )^{-1}$ $\Theta$

経験ベイズ法を適用するには、周辺分布を最尤推定値（MLE）で近似します。しかし、事後分布はガンマ分布であるため、周辺分布のMLEは事後分布の平均となり、これが必要な点推定値となります。ガンマ分布の平均は単純にであることを思い出してください。 $\operatorname {E} (\theta \mid y)$ $\mu$ $G(\alpha ',\beta ')$ $\alpha '\beta '$

\operatorname {E} (\theta \mid y)=\alpha '\beta '={\frac {{\bar {y}}+\alpha }{1+1/\beta }}={\frac {\beta }{1+\beta }}{\bar {y}}+{\frac {1}{1+\beta }}(\alpha \beta ).

およびの値を取得するために、経験ベイズでは経験データの完全なセットを使用して平均と分散を推定することを規定しています。 $\alpha$ $\beta$ $\alpha \beta$ $\alpha \beta ^{2}$

したがって、得られる点推定値は、標本平均と事前平均の加重平均のようになります。これは経験ベイズの一般的な特徴です。事前分布（つまり平均）の点推定値は、標本推定値と事前推定値の加重平均のようになります（分散の推定値も同様です）。 $\operatorname {E} (\theta \mid y)$ ${\bar {y}}$ $\mu =\alpha \beta$

参照

参考文献

^ Carlin, Bradley P.; Louis, Thomas A. (2002). 「経験ベイズ：過去、現在、そして未来」. Raftery, Adrian E.; Tanner, Martin A.; Wells, Martin T. (編). 21世紀の統計学. Chapman & Hall. pp. 312– 318. ISBN 1-58488-272-7。
^ ab Robbins, Herbert (1956). 「統計への経験的ベイズアプローチ」 . Breakthroughs in Statistics . Springer Series in Statistics. pp. 157– 163. doi :10.1007/978-1-4612-0919-5_26. ISBN 978-0-387-94037-3 MR 0084919 {{cite book}}: ISBN / Date incompatibility (help)
^ Carlin, Bradley P.; Louis, Thomas A. (2000).ベイズ法と経験ベイズ法によるデータ分析（第2版）. Chapman & Hall/CRC. 3.2節および付録B. ISBN 978-1-58488-170-4。
^ Saremi, Saeed; Hyvärinen, Aapo (2019). 「ニューラル経験ベイズ」. Journal of Machine Learning Research . 20 (181): 1– 23. ISSN 1533-7928

さらに詳しい情報

ピーター・E・ロッシ、グレッグ・M・アレンビー、ロブ・マカロック（2012年5月14日）。ベイズ統計とマーケティング。ジョン・ワイリー・アンド・サンズ。ISBN 978-0-470-86368-8。
カセラ、ジョージ（1985年5月）.「経験ベイズデータ分析入門」（PDF） . American Statistician . 39 (2): 83– 87. doi :10.2307/2682801. hdl : 1813/32886 . JSTOR 2682801. MR 0789118
ニクーリン、ミハイル (1987). 「経験的ベイズ的アプローチの問題におけるバーンスタインの正則性条件」.ソビエト数学ジャーナル. 36 (5): 596– 600. doi : 10.1007/BF01093293 . S2CID 122405908.

外部リンク

道路安全性の推定における経験的ベイズ法の適用（北米）
欠損データ解析のための経験ベイズ法
ベータ二項分布を用いた生体認証デバイスの性能評価
階層的単純ベイズ分類器（連続変数および離散変数用）。

[1] Carlin, Bradley P.; Louis, Thomas A. (2002). 「経験ベイズ：過去、現在、そして未来」. Raftery, Adrian E.; Tanner, Martin A.; Wells, Martin T. (編). 21世紀の統計学. Chapman & Hall. pp. 312– 318. ISBN 1-58488-272-7。

[Robbins-2] Robbins, Herbert (1956). 「統計への経験的ベイズアプローチ」 . Breakthroughs in Statistics . Springer Series in Statistics. pp. 157– 163. doi :10.1007/978-1-4612-0919-5_26. ISBN 978-0-387-94037-3 MR 0084919 {{cite book}}: ISBN / Date incompatibility (help)

[CL-3] Carlin, Bradley P.; Louis, Thomas A. (2000).ベイズ法と経験ベイズ法によるデータ分析（第2版）. Chapman & Hall/CRC. 3.2節および付録B. ISBN 978-1-58488-170-4。

[4] Saremi, Saeed; Hyvärinen, Aapo (2019). 「ニューラル経験ベイズ」. Journal of Machine Learning Research . 20 (181): 1– 23. ISSN 1533-7928