証拠の下限

変分ベイズ法では、証拠下限値（ELBOと略されることが多いが、変分下限値^[1]または負の変分自由エネルギーと呼ばれることもある）は、観測データの対数尤度の有用な下限値である。

ELBOは、データセットをモデル化する分布（例：）の対数尤度の最悪ケースを保証するため有用です。ELBOにはカルバック・ライブラー・ダイバージェンス（KLダイバージェンス）項が含まれており、モデル全体の適合度は良好であるにもかかわらず、モデルの内部部分が不正確であるためにELBOが減少するため、実際の対数尤度はより高くなる可能性があります（分布への適合度がさらに優れていることを示します）。したがって、ELBOスコアの改善は、モデルの尤度、またはモデル内部のコンポーネントの適合度、あるいはその両方が改善されることを示しており、ELBOスコアは、例えば、ディープニューラルネットワークを訓練してモデル全体と内部コンポーネントの両方を改善するための優れた損失関数となります。（内部コンポーネントはであり、この記事の後半で詳細に定義されます。） $p(X)$ $p(X)$ $q_{\phi }(\cdot |x)$

定義

を確率変数とし、分布で共分布するものとする。例えば、はの周辺分布であり、はが与えられたの条件付き分布である。すると、標本と任意の分布に対して、ELBO はと定義される。ELBOは^[2]と同義に書くことができる。 $X$ $Z$ $p_{\theta }$ $p_{\theta }(X)$ $X$ $p_{\theta }(Z\mid X)$ $Z$ $X$ $x\sim p_{\text{data}}$ $q_{\phi }$ $L(\phi ,\theta ;x):=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right].$

${\begin{aligned}L(\phi ,\theta ;x)=&\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {}p_{\theta }(x,z)\right]+H[q_{\phi }(z|x)]\\=&\mathbb {\ln } {}\,p_{\theta }(x)-D_{KL}(q_{\phi }(z|x)||p_{\theta }(z|x)).\\\end{aligned}}$

1行目では、はのエントロピーであり、ELBO とヘルムホルツの自由エネルギーを関連付けている。^[3] 2行目では、はの証拠と呼ばれ、はとの間のカルバック・ライブラー距離である。カルバック・ライブラー距離は非負であるため、は証拠の下限を形成する（ELBO不等式）。 $H[q_{\phi }(z|x)]$ $q_{\phi }$ $\ln p_{\theta }(x)$ $x$ $D_{KL}(q_{\phi }(z|x)||p_{\theta }(z|x))$ $q_{\phi }$ $p_{\theta }$ $L(\phi ,\theta ;x)$ $\ln p_{\theta }(x)\geq \mathbb {\mathbb {E} } _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z\vert x)}}\right].$

動機

変分ベイズ推論

観測可能な確率変数があり、その真の分布を見つけたいとします。これにより、サンプリングによってデータを生成し、将来の事象の確率を推定することができます。一般に、を正確に見つけることは不可能であるため、適切な近似値を探す必要があります $X$ $p^{*}$ $p^{*}$

つまり、十分に大きなパラメトリック分布族を定義し、何らかの損失関数についてを解きます。これを解く1つの方法は、からへの小さな変化を考慮し、についてを解くことです。これは変分法の問題であるため、変分法と呼ばれます。 $\{p_{\theta }\}_{\theta \in \Theta }$ $\min _{\theta }L(p_{\theta },p^{*})$ $L$ $p_{\theta }$ $p_{\theta +\delta \theta }$ $L(p_{\theta },p^{*})-L(p_{\theta +\delta \theta },p^{*})=0$

明示的にパラメータ化された分布族は多くないため（正規分布、ガンベル分布などの古典的な分布族はすべて、真の分布をモデル化するにはあまりにも単純すぎるため）、暗黙的にパラメータ化された確率分布を考えます。

まず、潜在確率変数上の単純な分布を定義します。通常は、正規分布または一様分布で十分です。 $p(z)$ $Z$
次に、によってパラメータ化された複雑な関数の族（ディープニューラルネットワークなど）を定義します。 $f_{\theta }$ $\theta$
最後に、任意のを観測可能な確率変数上の分布（一般に単純ですが、とは無関係）に変換する方法を定義します。たとえば、に2つの出力がある場合、上の対応する分布を正規分布と定義できます $f_{\theta }(z)$ $p(z)$ $X$ $f_{\theta }(z)=(f_{1}(z),f_{2}(z))$ $X$ ${\mathcal {N}}(f_{1}(z),e^{f_{2}(z)})$

これは上の結合分布の族を定義します。サンプリングは非常に簡単です。単にをサンプリングし、次にを計算し、最後にを使ってサンプリングするだけです $p_{\theta }$ $(X,Z)$ $(x,z)\sim p_{\theta }$ $z\sim p$ $f_{\theta }(z)$ $x\sim p_{\theta }(\cdot |z)$ $f_{\theta }(z)$

言い換えれば、観測可能量と潜在変数の両方に対して生成モデルが成り立ちます。ここで、分布がに近い近似値である場合、分布は良好であるとみなします。右側の分布はのみに対してなので、左側の分布は潜在変数を周辺化する必要があります。一般に、の積分を実行することは不可能であり、別の近似を実行する必要があります。 $p_{\theta }$ $p^{*}$ $p_{\theta }(X)\approx p^{*}(X)$ $X$ $Z$
$p_{\theta }(x)=\int p_{\theta }(x|z)p(z)dz$

（ベイズの定理）なので、の良い近似値を見つければ十分です。そこで、別の分布族を定義し、それを使用してを近似します。これは潜在変数の識別モデルです。 $p_{\theta }(x)={\frac {p_{\theta }(x|z)p(z)}{p_{\theta }(z|x)}}$ $p_{\theta }(z|x)$ $q_{\phi }(z|x)$ $p_{\theta }(z|x)$

全体の状況は次の表にまとめられています。


$X$ ：観測可能量	$X,Z$	$Z$ ：潜在変数
$p^{*}(x)\approx p_{\theta }(x)\approx {\frac {p_{\theta }(x\|z)p(z)}{q_{\phi }(z\|x)}}$ 近似可能		$p(z)$ 、簡単
	$p_{\theta }(x\|z)p(z)$ 、簡単
$p_{\theta }(z\|x)\approx q_{\phi }(z\|x)$ 近似可能		$p_{\theta }(x\|z)$ 、簡単

ベイズ言語では、は観測された証拠であり、は潜在変数/観測されていないものです。上の分布は上の事前分布、は尤度関数、は上の事後分布です $X$ $Z$ $p$ $Z$ $Z$ $p_{\theta }(x|z)$ $p_{\theta }(z|x)$ $Z$

観測値が与えられた場合、を計算することで何が生じた可能性が高いかを推測できます。通常のベイズ法は、積分を推定し、ベイズの定理に従って計算することです。これは一般的に実行コストがかかりますが、ほとんどのに対して良い近似値を見つけることができれば、から安価に推論できます。したがって、良い値の探索は償却推論とも呼ばれます。 $x$ $z$ $x$ $p_{\theta }(z|x)$ $p_{\theta }(x)=\int p_{\theta }(x|z)p(z)dz$ $p_{\theta }(z|x)={\frac {p_{\theta }(x|z)p(z)}{p_{\theta }(x)}}$ $q_{\phi }(z|x)\approx p_{\theta }(z|x)$ $x,z$ $z$ $x$ $q_{\phi }$

全体として、変分ベイズ推論の問題を発見しました。

ELBOの導出

変分推論における基本的な結果は、カルバック・ライブラー情報（KL情報）を最小化することは、対数尤度を最大化することと同等であるということです。ここで、は真の分布のエントロピーです。したがって、を最大化できれば、を最小化でき、結果として正確な近似値を見つけることができます $\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]=-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))$ $H(p^{*})=-\mathbb {\mathbb {E} } _{x\sim p^{*}}[\ln p^{*}(x)]$ $\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]$ $D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))$ $p_{\theta }\approx p^{*}$

を最大化するには、単に多くのをサンプリングします。つまり、を真の分布から抽出されたサンプル数とする重要度サンプリングを使用します。この近似は過学習と見なすことができます。 ^{[注 1]} $\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]$ $x_{i}\sim p^{*}(x)$ $N\max _{\theta }\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]\approx \max _{\theta }\sum _{i}\ln p_{\theta }(x_{i})$ $N$

を最大化するには、を求める必要があります。これは通常、閉じた形を持たないため、推定する必要があります。積分を推定する一般的な方法は、重要度サンプリングを用いたモンテカルロ積分です。ここでは、モンテカルロ積分を実行するために使用する上の標本分布です。 $\sum _{i}\ln p_{\theta }(x_{i})$ $\ln p_{\theta }(x)$ $\ln p_{\theta }(x)=\ln \int p_{\theta }(x|z)p(z)dz$ $\int p_{\theta }(x|z)p(z)dz=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]$ $q_{\phi }(z|x)$ $z$

したがって、をサンプリングすると、はの不偏推定値であることがわかります。残念ながら、は非線形であるため、の不偏推定値は得られません。実際、ジェンセンの不等式により、が得られます。実際、の明らかな推定値はすべて下方に偏っています。をいくつサンプリングしても、ジェンセンの不等式により、が得られるからです。右辺を引くと、問題は 0 の偏りのある推定値に行き着くことがわかります。この時点で、重要度重み付けオートエンコーダ^{[注 2]}の開発に進むこともできますが、代わりにの最も単純なケースに進みます。不等式のタイトネスは閉じた形を持ちます。このようにして、ELBO関数が得られました。 $z\sim q_{\phi }(\cdot |x)$ ${\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}$ $p_{\theta }(x)$ $\ln p_{\theta }(x)$ $\ln$ $\ln p_{\theta }(x)=\ln \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]\geq \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]$ $\ln p_{\theta }(x)$ $z_{i}\sim q_{\phi }(\cdot |x)$ $\mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln \left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(x,z_{i})}{q_{\phi }(z_{i}|x)}}\right)\right]\leq \ln \mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[{\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(x,z_{i})}{q_{\phi }(z_{i}|x)}}\right]=\ln p_{\theta }(x)$ $\mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln \left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(z_{i}|x)}{q_{\phi }(z_{i}|x)}}\right)\right]\leq 0$ $N=1$ $\ln p_{\theta }(x)=\ln \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]\geq \mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]$ $\ln p_{\theta }(x)-\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]=D_{\mathit {KL}}(q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x))\geq 0$ $L(\phi ,\theta ;x):=\ln p_{\theta }(x)-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x))$

ELBOの最大化

を固定した場合、最適化はを同時に最大化および最小化しようとします。とのパラメータ化が十分に柔軟であれば、が得られ、同時にが得られるでしょう $x$ $\max _{\theta ,\phi }L(\phi ,\theta ;x)$ $\ln p_{\theta }(x)$ $D_{\mathit {KL}}(q_{\phi }(\cdot |x)\|p_{\theta }(\cdot |x))$ $p_{\theta }$ $q_{\phi }$ ${\hat {\phi }},{\hat {\theta }}$

$\ln p_{\hat {\theta }}(x)\approx \max _{\theta }\ln p_{\theta }(x);\quad q_{\hat {\phi }}(\cdot |x)\approx p_{\hat {\theta }}(\cdot |x)$ であり、したがってであるので、言い換えれば、ELBOを最大化することで、正確な生成モデルと正確な識別モデルを同時に得ることができる。^[5] $\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]=-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))$ $\ln p_{\hat {\theta }}(x)\approx \max _{\theta }-H(p^{*})-D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))$ ${\hat {\theta }}\approx \arg \min D_{\mathit {KL}}(p^{*}(x)\|p_{\theta }(x))$ $p_{\hat {\theta }}\approx p^{*}$ $q_{\hat {\phi }}(\cdot |x)\approx p_{\hat {\theta }}(\cdot |x)$

主な形式

ELBOには多くの可能な表現があり、それぞれに異なる強調点がある。

\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}\right]=\int q_{\phi }(z|x)\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}dz

上記の形式は、をサンプリングすると、がELBOの不偏推定値であることを示しています。 $z\sim q_{\phi }(\cdot |x)$ $\ln {\frac {p_{\theta }(x,z)}{q_{\phi }(z|x)}}$

\ln \ p_{\theta }(x)-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\;\|\;p_{\theta }(\cdot |x))

上記の形式は、ELBOが証拠の下限であり、に関してELBOを最大化することは、からへのKLダイバージェンスを最小化することと同等であることを示しています $\ln \ p_{\theta }(x)$ $\phi$ $p_{\theta }(\cdot |x)$ $q_{\phi }(\cdot |x)$

\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}[\ln \ p_{\theta }(x|z)]-D_{\mathit {KL}}(q_{\phi }(\cdot |x)\;\|\;p(\cdot ))

ここでも、はの値の範囲です。上記の形式は、ELBO を最大化すると、高い（言い換えれば、観測されたの尤度の高い説明）ものに集中すると同時に、事前分布に近づけようとすることを示しています。実際には、この形式は、近似事後分布と事前分布の両方がガウス分布としてパラメータ化されている特殊なケースにおいて、ELBO の低分散不偏推定値を提供します。これは、KL 項（それ自体が期待値ではありますが）が閉じた形式の表現を持つため、最初の期待値項のみをサンプリングによって推定する必要があるためです。 $\cdot$ $z$ $q_{\phi }(\cdot |x)$ $z$ $\ln \ p_{\theta }(x|z)$ $x$ $q_{\phi }(\cdot |x)$ $p(\cdot )$ $z$

データ処理不等式

から独立したサンプルを取り出し、データセットに収集すると、経験分布が得られます $N$ $p^{*}$ $D=\{x_{1},...,x_{N}\}$ $q_{D}(x)={\frac {1}{N}}\sum _{i}\delta _{x_{i}}$

へのフィッティングは、通常どおり、対数尤度を最大化することで行うことができます。ここで、ELBO不等式により、を制限でき、したがって、右辺はKLダイバージェンスに簡略化されるため、次式を得ます。この結果は、データ処理不等式の特殊なケースとして解釈できます。 $p_{\theta }(x)$ $q_{D}(x)$ $\ln \ p_{\theta }(D)$ $D_{\mathit {KL}}(q_{D}(x)\|p_{\theta }(x))=-{\frac {1}{N}}\sum _{i}\ln \ p_{\theta }(x_{i})-H(q_{D})=-{\frac {1}{N}}\ln \ p_{\theta }(D)-H(q_{D})$ $\ln \ p_{\theta }(D)$ $D_{\mathit {KL}}(q_{D}(x)\|p_{\theta }(x))\leq -{\frac {1}{N}}L(\phi ,\theta ;D)-H(q_{D})$ $D_{\mathit {KL}}(q_{D}(x)\|p_{\theta }(x))\leq -{\frac {1}{N}}\sum _{i}L(\phi ,\theta ;x_{i})-H(q_{D})=D_{\mathit {KL}}(q_{D,\phi }(x,z);p_{\theta }(x,z))$

この解釈では、最大化はを最小化することであり、これはデータ処理不等式を介して関心のある実数の上限を決定します。つまり、KLダイバージェンスの計算効率の高い最小化のために、より弱い不等式を犠牲にして、観測可能空間に潜在空間を追加します。^[6] $L(\phi ,\theta ;D)=\sum _{i}L(\phi ,\theta ;x_{i})$ $D_{\mathit {KL}}(q_{D,\phi }(x,z);p_{\theta }(x,z))$ $D_{\mathit {KL}}(q_{D}(x);p_{\theta }(x))$

参考文献

^ Kingma, Diederik P.; Welling, Max (2014-05-01). "Auto-Encoding Variational Bayes". arXiv : 1312.6114 [stat.ML]
^ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). 「第19章」ディープラーニング適応型計算と機械学習ケンブリッジ、マサチューセッツ州：MIT出版ISBN 978-0-262-03561-3。
^ Hinton, Geoffrey E; Zemel, Richard (1993). 「オートエンコーダ、最小記述長、ヘルムホルツ自由エネルギー」.ニューラル情報処理システムの進歩. 6. Morgan-Kaufmann.
^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan (2015-09-01). 「重要度重み付けオートエンコーダ」. arXiv : 1509.00519 [stat.ML]
^ ニール、ラドフォード・M.、ヒントン、ジェフリー・E. (1998)、「増分型、スパース型、その他の変種を正当化するEMアルゴリズムの視点」、グラフィカルモデル学習、ドルドレヒト：シュプリンガー・オランダ、pp. 355– 368、doi :10.1007/978-94-011-5014-9_12、ISBN 978-94-010-6104-9、S2CID 17947141
^ Kingma, Diederik P.; Welling, Max (2019-11-27). 「変分オートエンコーダ入門」.機械学習の基礎と動向. 12 (4). セクション2.7. arXiv : 1906.02691 . doi :10.1561/2200000056. ISSN 1935-8237. S2CID 174802445.

注記

^ 実際、Jensenの不等式により、推定量は上方に偏っています。これは過適合と見なすことができます。つまり、有限のサンプルデータ集合に対して、通常、分布全体よりもよく適合するものがあります。 $\mathbb {E} _{x\sim p^{*}(x)}\left[\max _{\theta }\sum _{i}\ln p_{\theta }(x_{i})\right]\geq \max _{\theta }\mathbb {E} _{x\sim p^{*}(x)}\left[\sum _{i}\ln p_{\theta }(x_{i})\right]=N\max _{\theta }\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]$ $x_{i}$ $\theta$ $p^{*}$
^ デルタ法により、次の式が得られます。これを続けると、重要度重み付けオートエンコーダが得られます。^[4] $\mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln \left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(z_{i}|x)}{q_{\phi }(z_{i}|x)}}\right)\right]\approx -{\frac {1}{2N}}\mathbb {V} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(z|x)}{q_{\phi }(z|x)}}\right]=O(N^{-1})$

[:0-1] Kingma, Diederik P.; Welling, Max (2014-05-01). "Auto-Encoding Variational Bayes". arXiv : 1312.6114 [stat.ML]

[2] Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). 「第19章」ディープラーニング適応型計算と機械学習ケンブリッジ、マサチューセッツ州：MIT出版ISBN 978-0-262-03561-3。

[3] Hinton, Geoffrey E; Zemel, Richard (1993). 「オートエンコーダ、最小記述長、ヘルムホルツ自由エネルギー」.ニューラル情報処理システムの進歩. 6. Morgan-Kaufmann.

[5] Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan (2015-09-01). 「重要度重み付けオートエンコーダ」. arXiv : 1509.00519 [stat.ML]

[7] ニール、ラドフォード・M.、ヒントン、ジェフリー・E. (1998)、「増分型、スパース型、その他の変種を正当化するEMアルゴリズムの視点」、グラフィカルモデル学習、ドルドレヒト：シュプリンガー・オランダ、pp. 355– 368、doi :10.1007/978-94-011-5014-9_12、ISBN 978-94-010-6104-9、S2CID 17947141

[8] Kingma, Diederik P.; Welling, Max (2019-11-27). 「変分オートエンコーダ入門」.機械学習の基礎と動向. 12 (4). セクション2.7. arXiv : 1906.02691 . doi :10.1561/2200000056. ISSN 1935-8237. S2CID 174802445.

[in_fact-4] 実際、Jensenの不等式により、推定量は上方に偏っています。これは過適合と見なすことができます。つまり、有限のサンプルデータ集合に対して、通常、分布全体よりもよく適合するものがあります。 $\mathbb {E} _{x\sim p^{*}(x)}\left[\max _{\theta }\sum _{i}\ln p_{\theta }(x_{i})\right]\geq \max _{\theta }\mathbb {E} _{x\sim p^{*}(x)}\left[\sum _{i}\ln p_{\theta }(x_{i})\right]=N\max _{\theta }\mathbb {E} _{x\sim p^{*}(x)}[\ln p_{\theta }(x)]$ $x_{i}$ $\theta$ $p^{*}$

[importance-weighted-6] デルタ法により、次の式が得られます。これを続けると、重要度重み付けオートエンコーダが得られます。^[4] $\mathbb {E} _{z_{i}\sim q_{\phi }(\cdot |x)}\left[\ln \left({\frac {1}{N}}\sum _{i}{\frac {p_{\theta }(z_{i}|x)}{q_{\phi }(z_{i}|x)}}\right)\right]\approx -{\frac {1}{2N}}\mathbb {V} _{z\sim q_{\phi }(\cdot |x)}\left[{\frac {p_{\theta }(z|x)}{q_{\phi }(z|x)}}\right]=O(N^{-1})$