カルバック・ライブラー距離

数理統計学において、カルバック・ライブラー（KL）情報量（相対エントロピーやI情報量とも呼ばれる^[1]）は統計距離の一種であり、近似確率分布 $Qが真の確率分布$ $P$ とどれだけ異なるかを示す尺度である^[2]^[3] 。数学的には次のように定義される。 $D_{\text{KL}}(P\parallel Q)$

$D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\,\log {\frac {P(x)}{Q(x)}}{\text{.}}$

$P$ から $Q$ への KL ダイバージェンスの単純な解釈は、実際が $Pであるときに$ $P$ の代わりに近似値 $Qを使用することで$ 予想される過剰驚きです。これは 2 つの分布がどれだけ異なるかを示す尺度であり、したがってある意味では距離ですが、実際には、最もよく知られた正式な種類の距離である測定基準ではありません。特に、これは 2 つの分布で対称ではなく (情報の変化とは対照的)、三角不等式を満たしません。その代わりに、情報幾何学では、これはダイバージェンスの一種であり、^[4]二乗距離の一般化であり、分布の特定のクラス (特に指数型族) では一般化されたピタゴラスの定理(二乗距離に適用される) を満たします。^[5]

相対エントロピーは常に非負の実数であり、2つの分布が同一である場合にのみ値が0となります。相対エントロピーは、情報システムにおける相対（シャノン）エントロピー、連続時系列におけるランダム性、推論の統計モデルを比較する際の情報利得などの理論的な分野から、応用統計学、流体力学、神経科学、バイオインフォマティクス、機械学習などの実用的な分野まで、幅広い応用分野があります。

はじめにと背景

真の確率分布 $P$ と近似分布 $Q$ という2つの確率分布を考えてみましょう。多くの場合、 $P は$ データ、観測値、または測定された確率分布を表し、分布 $Q$ は理論、モデル、記述、あるいは $P$ の近似値を表します。しかし、真の分布 $P が$ モデルを表し、近似分布 $Q が$ 真の分布に一致するように意図された（シミュレートされた）データを表す場合もあります。この場合、カルバック・ライブラー情報とは、 $P$ に最適化されたコードではなく $Q$ に最適化されたコードを用いて $P$ のサンプルをエンコードするために必要なビット数の平均差として解釈されます。 $D_{\text{KL}}(P\parallel Q)$

$P$ と $Q$ の役割は、期待値最大化アルゴリズム（EM）や証拠下限値（ELBO）の計算のように、を計算する方が簡単で、を最小化することが目的となる状況では逆転する場合があることに注意してください。この役割逆転アプローチは、がであることと、多くの場合、一方を小さくすると他方も小さくなるという条件を利用します。 $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(P\parallel Q)=0$ $D_{\text{KL}}(Q\parallel P)=0$

語源

相対エントロピーは、ソロモン・カルバックとリチャード・ライブラーによって、カルバック＆ライブラー（1951）において「からの観測値あたりと間の識別情報の平均」として導入されました。 ^[6]ここで、2つの確率測度を比較し、はそれぞれ測度から選択する仮説です。彼らはこれをと表記し、「と間の『乖離』」を対称化された量として定義しました。この量は、 1948年にハロルド・ジェフリーズによって既に定義・使用されていました。^[7]カルバック（1959）では、対称化された形式は再び「乖離」と呼ばれ、各方向の相対エントロピーは2つの分布間の「有向乖離」と呼ばれています。^{[8]カルバックは、}判別情報という用語を好んで使用しました。^[9]「乖離」という用語は距離（計量）とは対照的です。対称化された乖離は三角不等式を満たさないためです。^[10]対称化ダイバージェンスの初期の用法や他の統計的距離については、Kullback (1959, pp. 6–7, §1.3 Divergence) に多数言及されている。非対称な「有向ダイバージェンス」はKullback–Leiblerダイバージェンスとして知られるようになり、対称化された「ダイバージェンス」は現在Jeffreysダイバージェンスと呼ばれている。 $H_{1}$ $H_{2}$ $\mu_{1}$ $\mu _{1},\mu _{2}$ $H_{1},H_{2}$ $\mu _{1},\mu _{2}$ $I(1:2)$ $\mu_{1}$ $\mu_{2}$ $J(1,2)=I(1:2)+I(2:1)$

意味

同じ標本空間上で定義された離散確率分布 $P$ と $Q$ に対して、 $Qから$ $P$ への相対エントロピーは^[11]で次のように定義される。 ${\mathcal {X}}$

$D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\,\log {\frac {P(x)}{Q(x)}}{\text{,}}$

これは次の式と同等である。

$D_{\text{KL}}(P\parallel Q)=\left(-\sum _{x\in {\mathcal {X}}}P(x)\,\log Q(x)\right)-\left(-\sum _{x\in {\mathcal {X}}}P(x)\,\log P(x)\right){\text{.}}$

言い換えれば、確率 $P$ と $Qの対数差の$ 期待値であり、期待値は確率 $P$ を使用して求められます。

相対エントロピーは、すべての $x$ に対して（絶対連続性）が成り立つ場合にのみ、このように定義されます。そうでない場合、しばしばと定義されます^[1]。しかし、の値は、の範囲が無限大である限り、どこでもであっても成り立ちます^[12]^[13]。同様のコメントは、以下で定義される連続測度および一般測度の場合にも当てはまります。 $Q(x)=0$ $P(x)=0$ $+\infty$ $\ +\infty \$ $Q(x)\neq 0$ ${\mathcal {X}}$

がゼロのときは、対応する項の寄与はゼロと解釈される。 $P(x)$

$\lim _{x\to 0^{+}}x\,\log(x)=0{\text{.}}$

連続確率変数の分布 $P$ と $Q$ に対して、相対エントロピーは積分^{[14]として定義される。}

$D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,dx{\text{.}}$

ここで、 $p$ と $q は$ $P$ と $Q$ の確率密度を表します。

より一般的には、 $P$ と $Qが$ 測定空間上の確率測度であり、 $Pが$ $Q$ に関して絶対連続である場合、 $Qから$ $P$ への相対エントロピーは次のように定義される。 ${\mathcal {X}}\,,$

$D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}\log {\frac {P(dx)}{Q(dx)}}\,P(dx){\text{,}}$

ここでは $P$ の $Q$ に関するラドン・ニコディム微分、すなわち $Q の$ ほぼどこでも定義される唯一の関数 $r$ であり、これは $P が$ $Q$ に関して絶対連続であるために存在する。また、右辺の式が存在すると仮定する。同様に（連鎖律により）、これは次のように書くことができる。 ${\frac {P(dx)}{Q(dx)}}$ ${\mathcal {X}}$ $P(dx)=r(x)Q(dx)$

$D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}{\frac {P(dx)}{Q(dx)}}\ \log {\frac {P(dx)}{Q(dx)}}\ Q(dx){\text{,}}$

これは $Q$ に対する $P$ のエントロピーである。この場合、が、およびを満たす密度 $p$ と $qが$ 存在する（つまり、 $P$ と $Qは$ 両方ともに関して絶対連続である）上の任意の測度である場合、 $Qから$ $P$ への相対エントロピーは次のように与えられる。 $\mu$ ${\mathcal {X}}$ $P(dx)=p(x)\mu (dx)$ $Q(dx)=q(x)\mu (dx)$ $\mu$

$D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}p(x)\,\log {\frac {p(x)}{q(x)}}\ \mu (dx){\text{.}}$

密度を定義できる測度は常に存在することに注意してください。なぜなら、をとることができるからです。ただし、実際には、離散分布の場合は計数測度、連続分布の場合はルベーグ測度またはその便利な変種（ガウス測度、球面上の一様測度、リー群上のハール測度など）など、文脈に適用される測度が通常使用されます。これらの式における対数は、情報がビット単位で測定される場合は通常2を底とし、情報が nats単位で測定される場合は通常 $e$ を底とします。相対エントロピーを含むほとんどの式は、対数の底に関わらず成り立ちます。 $\mu$ ${\textstyle \mu ={\frac {1}{2}}\left(P+Q\right)}$

を言葉で表現する際には様々な慣習があります。多くの場合、 $P$ と $Q$ の乖離と呼ばれますが、これでは関係における根本的な非対称性を伝えることができません。この記事のように、 P から Q への乖離、あるいは Q から P への乖離と表現されることもあります $。$ これ $は$ $、$ 事前 $Q$ から事後P へと更新するベイズ推論における非対称性を反映しています。を $表わす$ もう一つの一般的な方法は、 $Q$ $に対する$ P $の$ 相対エントロピー、あるいは $Q$ に対する $P$ の情報ゲインです。 $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(P\parallel Q)$

基本的な例

Kullback ^[3]は次の例（表2.1、例2.1）を示しています。表と図に示されている分布を $P$ と $Qとします。P$ $は$ 図の左側の分布で、およびとなる二項分布です。Q $は$ 図の右側の分布で、 $x$ $=$ という3つの結果が考えられる離散一様分布です。 $N=2$ $p=0.4$ $0, 1 、 2$ (すなわち)、それぞれ確率です。 ${\mathcal {X}}=\{0,1,2\}$ $p=1/3$

$\times$ 分布	0	1	2
$P(x)$	⁠9/25⁠	⁠12/25⁠	⁠4/25⁠
$Q(x)$	⁠1/3⁠	⁠1/3⁠	⁠1/3⁠

相対エントロピーとは以下のように計算されます。この例では、 $e$ を底とする自然対数を $ln$ で表し、結果をNATSで表します（情報の単位を参照）。 $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}P(x)\,\ln {\frac {P(x)}{Q(x)}}\\&={\frac {9}{25}}\ln {\frac {9/25}{1/3}}+{\frac {12}{25}}\ln {\frac {12/25}{1/3}}+{\frac {4}{25}}\ln {\frac {4/25}{1/3}}\\&={\frac {1}{25}}\left(32\ln 2+55\ln 3-50\ln 5\right)\\&\approx 0.0852996{\text{,}}\end{aligned}}$

${\begin{aligned}D_{\text{KL}}(Q\parallel P)&=\sum _{x\in {\mathcal {X}}}Q(x)\,\ln {\frac {Q(x)}{P(x)}}\\&={\frac {1}{3}}\,\ln {\frac {1/3}{9/25}}+{\frac {1}{3}}\,\ln {\frac {1/3}{12/25}}+{\frac {1}{3}}\,\ln {\frac {1/3}{4/25}}\\&={\frac {1}{3}}\left(-4\ln 2-6\ln 3+6\ln 5\right)\\&\approx 0.097455{\text{.}}\end{aligned}}$

解釈

統計

統計学の分野において、ネイマン・ピアソンの補題は、観測値 $Y$ （どちらか一方から抽出）に基づいて2つの分布 $P$ と $Qを$ 区別する最も強力な方法は、それらの尤度の比の対数をとることであると述べている。KLダイバージェンスは、 $Yが実際に$ $P$ から抽出された場合のこの統計量の期待値である。カルバックは、この統計量を期待対数尤度比として提示した。^[15] $\log P(Y)-\log Q(Y)$

コーディング

符号理論の文脈では、 $Pに最適化されたコードではなく、$ $Q$ に最適化されたコードを使用して $P$ からのサンプルを符号化するために必要な追加ビットの予想数を測定することによって、を構築できます。 $D_{\text{KL}}(P\parallel Q)$

推論

機械学習の文脈では、これは現在使用されている $Q$ の代わりに $P を$ 使用した場合に得られる情報利得と呼ばれることが多い。情報理論との類推により、これは $Q$ に対する $P$ の相対エントロピーと呼ばれる。 $D_{\text{KL}}(P\parallel Q)$

ベイズ推論の用語で表現すると、事前確率分布 $Qから$ 事後確率分布 $P$ へと信念を修正することで得られる情報の尺度である。言い換えれば、 $Q$ を用いて $Pを$ 近似する際に失われる情報量である。^[16] $D_{\text{KL}}(P\parallel Q)$

情報幾何学

応用分野において、 $P は$ 通常、データ、観測値、または正確に計算された理論分布の「真の」分布を表します。一方、 $Q は通常、$ $P$ の理論、モデル、記述、または近似を表します。 $P$ に最も近い分布 $Q$ を見つけるには、KLダイバージェンスを最小化し、情報射影を計算します。

これは統計的距離であるが、距離の最も一般的な種類である計量ではなく、発散である。^[4]計量は対称であり、一般化して線形距離となり、三角不等式を満たすのに対し、発散は非対称であり、一般化して二乗距離となり、一般化ピタゴラスの定理を満たす場合がある。一般にはと等しくなく、この非対称性は幾何学の重要な部分である。^[4]相対エントロピーの無限小形式、具体的にはそのヘッセ行列は、フィッシャー情報計量に等しい計量テンソルを与える。§ フィッシャー情報計量を参照。特定の確率分布上のフィッシャー情報計量により、情報幾何最適化アルゴリズムの自然勾配が決定される。^[17]その量子バージョンはフビニ研究計量である。^{[18]相対エントロピーは}指数族（幾何学的には双対平坦多様体として解釈される）に対する一般化ピタゴラスの定理を満たし、これにより情報射影や最大尤度推定などの幾何学的手段によって相対エントロピーを最小化することができる。^[5] $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

相対エントロピーは、負のエントロピーによって生成されるブレグマン情報量であるが、 $f$ 情報量の形もとっている。有限アルファベット上の確率において、この情報は統計的情報量の両方のクラスに属するという点で特異である。ブレグマン情報量の応用は鏡降下法に見られる。^[19]

ファイナンス（ゲーム理論）

相互に排他的な結果をもたらす公平なゲーム（例えば、公式オッズの合計が1になる「競馬」）において、成長最適化を志向する投資家を考えてみましょう。このような投資家が期待する収益率は、投資家が信じる確率と公式オッズとの間の相対エントロピーに等しくなります。^[20]これは、金融収益と乖離指標との間のより一般的な関係の特殊なケースです。^[21]

金融リスクは情報幾何学を介して結びついています。^[22]投資家の見解、市場の支配的な見解、そしてリスクシナリオは、関連する確率分布の多様体上で三角形を形成します。三角形の形状は、主要な金融リスク（定性的および定量的の両方）を決定します。例えば、投資家の見解とリスクシナリオが市場に対して「反対側」に現れる鈍角三角形はマイナスリスクを表し、鋭角三角形はプラスエクスポージャーを表し、中央の直角はゼロリスクに対応します。この概念を拡張すると、相対エントロピーを、例えば資金フローの規模と事前の予想からの乖離によって表すとすれば、情報に精通した投資家の行動を特定するために仮説的に利用することができます。^[23] $D_{\text{KL}}$

モチベーション

2つの正規分布の相対エントロピーの図解。典型的な非対称性がはっきりと見て取れます。

情報理論において、クラフト＝マクミラン定理は、メッセージを符号化して可能性の集合 $Xから1つの値を識別するための直接復号可能な符号化方式は、$ $X$ 上の暗黙的な確率分布を表すものと見なせることを確立する。ここで、 X はビット単位の符号長である。したがって、相対エントロピーとは、与えられた（誤った）分布 $Qに最適な符号を用いた場合に、真の分布$ $P$ に基づく符号を用いた場合と比較して、データごとに通信しなければならないメッセージ長がどれだけ増加すると予想されるか、つまり過剰エントロピーとして解釈できる。 $x_{i}$ $q(x_{i})=2^{-\ell_{i}}$ $\ell_{i}$ $x_{i}$

${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{q(x)}}-\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{p(x)}}\\[5pt]&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}$

ここで、は $P$ に対する $Q$ のクロスエントロピーであり、は $P$ のエントロピーです(これは P 自身とのクロスエントロピーと同じです)。 $\mathrm {H} (P,Q)$ $\mathrm {H} (P)$

相対エントロピーは幾何学的には統計距離、つまり分布 $Q$ が分布 $P$ からどれだけ離れているかを表す尺度と考えることができます。幾何学的にはそれは発散、つまり二乗距離の非対称な一般化された形です。クロスエントロピー自体もそのような尺度（正式には損失関数）ですが、はゼロではないため、距離と考えることはできません。これは、を減算して超過損失として、距離の概念とより一致させることで修正できます。結果として得られる関数は非対称ですが、これを対称化することもできますが（§ 対称化された発散を参照）、非対称な形式の方がより有用です。幾何学的解釈の詳細については、§ 解釈を参照してください。 $D_{\text{KL}}(P\parallel Q)$ $H(P,Q)$ $H(P,P)=:H(P)$ $H(P)$ $D_{\text{KL}}(P\parallel Q)$

相対エントロピーは大偏差理論における「速度関数」と関連している。^[24]^[25]

アーサー・ホブソンは、相対エントロピーは、エントロピーの一般的な特徴付けに現れるものの標準的な拡張であるいくつかの望ましい特性を満たす、確率分布間の差の唯一の尺度であることを証明した。^[26]その結果、相互情報量は、カルバック・ライブラー情報量の観点から定義できるため、特定の関連条件に従う相互依存性の唯一の尺度である。

プロパティ

相対エントロピーは常に非負であり、その結果はギブスの不等式として知られ、尺度としてがの場合のみ0になります。 $D_{\text{KL}}(P\Parallel Q)\geq 0,$ $D_{\text{KL}}(P\parallel Q)$ $P=Q$

特に、かつならば、ほぼどこでもとなる。したがって、エントロピーはクロスエントロピーの最小値を設定する。クロスエントロピーとは、 $P$ ではなく $Q$ に基づくコードを使用する場合に必要なビット数の予想値である。したがって、カルバック・ライブラー情報量は、確率分布 $Qに対応するコード（真の分布$ $P$ ではない）を使用する場合に、 $X$ から抽出された値 $x を$ 識別するために送信する必要がある追加ビット数の予想値を表す。 $P(dx)=p(x)\mu (dx)$ $Q(dx)=q(x)\mu (dx)$ $p(x)=q(x)$ $\mu$ $\mathrm {H} (P)$ $\mathrm {H} (P,Q)$

一般の場合、上限は存在しません。しかし、 $P$ と $Qが$ 同じ離散量を分布させることで構築された2つの離散確率分布である場合、の最大値は計算できることが示されています。^[27] $D_{\text{KL}}(P\parallel Q)$
相対エントロピーは連続分布に対して明確に定義され、さらにパラメータ変換に対して不変である。たとえば、変数 $x$ から変数への変換が行われた場合、およびであるため、ここでは導関数の絶対値、またはより一般的にはヤコビアンの絶対値であり、相対エントロピーは次のように書き直すことができる。ここで、および。変換は連続であると想定されていたが、必ずしもそうである必要はない。これはまた、相対エントロピーが次元的に一貫性のある量を生成することも示している。なぜなら、 $x が$ 次元付き変数である場合、およびもまた次元付きであるからである。eg は無次元であるからである。対数項の引数は、当然のことながら、無次元のままである。したがって、これは、非離散確率に対して未定義または負になることがある情報理論^{[28]の他の特性（}自己情報量やシャノンエントロピーなど）よりも、ある意味ではより基本的な量と見なすことができる。 $y(x)$ $P(dx)=p(x)\,dx={\tilde {p}}(y)\,dy={\tilde {p}}(y(x))\left|{\tfrac {dy}{dx}}(x)\right|\,dx$ $Q(dx)=q(x)\,dx={\tilde {q}}(y)\,dy={\tilde {q}}(y)\left|{\tfrac {dy}{dx}}(x)\right|dx$ $\left|{\tfrac {dy}{dx}}(x)\right|$ ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}p(x)\,\log {\frac {p(x)}{q(x)}}\,dx\\[6pt]&=\int _{x_{a}}^{x_{b}}{\tilde {p}}(y(x))\left|{\frac {dy}{dx}}\right|\log {\frac {{\tilde {p}}(y(x))\,\left|{\frac {dy}{dx}}\right|}{{\tilde {q}}(y(x))\,\left|{\frac {dy}{dx}}\right|}}\,dx\\&=\int _{y_{a}}^{y_{b}}{\tilde {p}}(y)\,\log {\frac {{\tilde {p}}(y)}{{\tilde {q}}(y)}}\,dy\end{aligned}}$ $y_{a}=y(x_{a})$ $y_{b}=y(x_{b})$ $p(x)$ $q(x)$ $P(dx)=p(x)\,dx$
相対エントロピーは、シャノンエントロピーとほぼ同様に、独立分布に対して加法的である。が独立分布、が独立分布、が独立分布の場合も同様である。 $P_{1},P_{2}$ $P(dx,dy)=P_{1}(dx)P_{2}(dy)$ $Q(dx,dy)=Q_{1}(dx)Q_{2}(dy)$ $Q_{1},Q_{2}$ $D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).$
相対エントロピーは確率測度のペアにおいて凸である。つまり、とが2つの確率測度のペアであるとき、 $D_{\text{KL}}(P\parallel Q)$ $(P,Q)$ $(P_{1},Q_{1})$ $(P_{2},Q_{2})$ $D_{\text{KL}}(\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2})\leq \lambda D_{\text{KL}}(P_{1}\parallel Q_{1})+(1-\lambda )D_{\text{KL}}(P_{2}\parallel Q_{2}){\text{ }}0\leq \lambda \leq 1 の場合。$
$D_{\text{KL}}(P\parallel Q)$ は、その最小値（すなわち）についてテイラー展開することができ、に関してほぼ確実にである場合に限り収束します。 $P=Q$ $D_{\text{KL}}(P\Parallel Q)=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}$ $P\leq 2Q$ $Q$

[証拠]

と表記し、であることに注意してください。の最初の導関数は次のように導出、評価できます。さらに導関数は次のように導出、評価できます。したがって、について評価したのテイラー展開を介してを解くと、が得られます。は、次の絶対収束の議論により、級数が収束するための十分な条件です。は、次の背理法による証明により、級数が収束するための必要な条件でもあります。がより確実に大きい測度でであると仮定します。すると、測度でとなる値、、およびが存在する必要があることがわかります。前の十分性の証明では、級数の測度成分が有界であることを示しています。したがって、である級数の測度成分の振る舞いだけを考慮すれば済みます。この級数の成分の番目の項の絶対値はによって下限が有界になりますが、はとして有界ではないため、級数は発散します。 $f(\alpha ):=D_{\text{KL}}((1-\alpha )Q+\alpha P\parallel Q)$ $D_{\text{KL}}(P\parallel Q)=f(1)$ $f$ ${\begin{aligned}f'(\alpha )&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\left(\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)+1\right)\\&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)\\f'(0)&=0\end{aligned}}$ ${\begin{aligned}f''(\alpha )&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{(1-\alpha )Q(x)+\alpha P(x)}}\\f''(0)&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{Q(x)}}\\f^{(n)}(\alpha )&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{\left((1-\alpha )Q(x)+\alpha P(x)\right)^{n-1}}}\\f^{(n)}(0)&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ $D_{\text{KL}}(P\parallel Q)$ $f$ $0$ $\alpha =1$ ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{n=0}^{\infty}{\frac {f^{(n)}(0)}{n!}}\\&=\sum _{n=2}^{\infty}{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ $P\leq 2Q$ ${\begin{aligned}\sum _{n=2}^{\infty }\left\vert {\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\right\vert &=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \left\vert 1-{\frac {P(x)}{Q(x)}}\right\vert ^{n-1}\\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\\&=1\end{aligned}}$ $P\leq 2Q$ $P>2Q$ $0$ $\varepsilon >0$ $\rho >0$ $U<\infty$ $P\geq 2Q+\varepsilon$ $Q\leq U$ $\rho$ $1-\rho$ $P\leq 2Q$ $\rho$ $P\geq 2Q+\varepsilon$ $n$ ${\frac {1}{n(n-1)}}\rho \left(1+{\frac {\varepsilon }{U}}\right)^{n}$ $n\to \infty$

変分推論の双対性公式

ドンスカーとヴァラダンによる次の結果^[29]は、ドンスカーとヴァラダンの変分公式として知られています。

定理[変分推論の双対性公式] —適切な- 体と2つの確率測度 $P$ および $Q$ を持つ集合としの条件を満たす2つの確率空間および。( は $Q が$ $P$ に関して絶対連続であることを示す。)を上の実数値の積分可能な確率変数と $する$ 。このとき、次の等式が成立する。 $\Theta$ $\sigma$ ${\mathcal {F}}$ $(\Theta ,{\mathcal {F}},P)$ $(\Theta ,{\mathcal {F}},Q)$ $Q\ll P$ $Q\ll P$ $(\Theta ,{\mathcal {F}},P)$

$\log E_{P}[\exp h]=\operatorname {sup} _{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}{\text{.}}$

さらに、右辺の上限は、次の式が成り立つ場合にのみ達成される。

${\frac {Q(d\theta)}{P(d\theta)}}={\frac {\exp h(\theta)}{E_{P}[\exp h]}}{\text{,}}$

$確率測度P$ に関してほぼ確実に、ここで $Qの$ $P$ に関するラドン・ニコディム微分を表す。 ${\frac {Q(d\theta)}{P(d\theta)}}$

証拠

簡単な証明として、 $P$ に関して積分可能であると仮定し、 $P$ 密度を持つとします。つまり、 $\exp(h)$ $Q^{*}$ ${\frac {\exp h(\theta )}{E_{P}[\exp h]}}$ $Q^{*}(d\theta )={\frac {\exp h(\theta )}{E_{P}[\exp h]}}P(d\theta )$

$D_{\text{KL}}(Q\parallel Q^{*})-D_{\text{KL}}(Q\parallel P)=-E_{Q}[h]+\log E_{P}[\exp h]{\text{.}}$

したがって、

$E_{Q}[h]-D_{\text{KL}}(Q\parallel P)=\log E_{P}[\exp h]-D_{\text{KL}}(Q\parallel Q^{*})\leq \log E_{P}[\exp h]{\text{,}}$

ここで、最後の不等式はから導かれ、に対して等式が成り立つのはのときのみである。結論は次のように示される。 $D_{\text{KL}}(Q\Parallel Q^{*})\geq 0$ $Q=Q^{*}$

例

多変量正規分布

平均と（非特異）共分散行列を持つ2つの多変量正規分布があるとします。2つの分布が同じ次元 $k$ を持つ場合、分布間の相対エントロピーは次のようになります。^[30] $\mu _{0},\mu _{1}$ $\Sigma _{0},\Sigma _{1}.$

$D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left[\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)-k+\left(\mu _{1}-\mu _{0}\right)^{\mathsf {T}}\Sigma _{1}^{-1}\left(\mu _{1}-\mu _{0}\right)+\ln {\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right]{\text{.}}$

最後の項の対数はeを底とする必要があります。これは $、$ 最後の項を除くすべての項が、密度関数の因数であるか、あるいは自然に生じる式の $eを底とする対数であるためです。したがって、この式は$ nats単位で測定された結果を与えます。上記の式全体をで割ると、ビット単位の発散が得られます。 $\ln(2)$

数値実装においては、結果をコレスキー分解で表現すると便利であり、およびとなる。すると、三角線形方程式の $M$ および $y$ 解、およびは、 $L_{0},L_{1}$ $\Sigma _{0}=L_{0}L_{0}^{T}$ $\Sigma _{1}=L_{1}L_{1}^{T}$ $L_{1}M=L_{0}$ $L_{1}y=\mu _{1}-\mu _{0}$

$D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left(\sum _{i,j=1}^{k}{\left(M_{ij}\right)}^{2}-k+|y|^{2}+2\sum _{i=1}^{k}\ln {\frac {(L_{1})_{ii}}{(L_{0})_{ii}}}\right){\text{.}}$

変分推論における特殊なケースであり一般的な量は、対角多変量正規分布と標準正規分布（平均ゼロ、分散1）間の相対エントロピーです。

$D_{\text{KL}}\left({\mathcal {N}}\left(\left(\mu _{1},\ldots ,\mu _{k}\right)^{\mathsf {T}},\operatorname {diag} \left(\sigma _{1}^{2},\ldots ,\sigma _{k}^{2}\right)\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={\frac {1}{2}}\sum _{i=1}^{k}\left[\sigma _{i}^{2}+\mu _{i}^{2}-1-\ln \left(\sigma _{i}^{2}\right)\right]{\text{.}}$

2つの単変量正規分布 $p$ と $q$ の場合、上記は次のように簡略化される^[31]。 $D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {\sigma _{1}}{\sigma _{0}}}+{\frac {\sigma _{0}^{2}+{\left(\mu _{0}-\mu _{1}\right)}^{2}}{2\sigma _{1}^{2}}}-{\frac {1}{2}}$

の共心正規分布の場合、^[32]は次のように簡略化される。 $k=\sigma _{1}/\sigma _{0}$

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log _{2}k+(k^{-2}-1)/2/\ln(2)\mathrm {ビット}$

一様分布

（）で囲まれた2つの一様分布を考えます。この場合、情報利得は次のように表されます。 $p=[A,B]$ $q=[C,D]$ $C\leq A<B\leq D$

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {DC}{BA}}$

直感的に言えば、^[32] $k$ 倍狭い一様分布の情報利得にはビットが含まれます。これは、 $kの$ 長さのストリームの1つの要素を識別するためにビットが必要となる計算におけるビットの使用と関連しています。 $\log_{2}k$ $\log_{2}k$

指数族

指数分布族は次のように与えられる。

$p_{X}(x|\theta )=h(x)\exp \left(\theta ^{\mathsf {T}}T(x)-A(\theta )\right)$

ここで、は参照測度、は十分な統計量、は標準的な自然パラメータ、は対数パーティション関数です。 $h(x)$ $T(x)$ $\theta$ $A(\theta )$

2つの分布間のKLダイバージェンスは^[33]で与えられる。 $p(x|\theta _{1})$ $p(x|\theta _{2})$

$D_{\text{KL}}(\theta _{1}\parallel \theta _{2})={\left(\theta _{1}-\theta _{2}\right)}^{\mathsf {T}}\mu _{1}-A(\theta _{1})+A(\theta _{2})$

ここではの平均パラメータです。 $\mu _{1}=E_{\theta _{1}}[T(X)]=\nabla A(\theta _{1})$ $p(x|\theta _{1})$

例えば、平均、十分な統計量、自然パラメータ、対数分割関数を持つポアソン分布の場合、平均とを持つ2つのポアソン分布間の乖離は $\lambda$ $T(x)=x$ $\theta =\log \lambda$ $A(\theta)=e^{\theta}$ $\lambda_{1}$ $\lambda_{2}$

$D_{\text{KL}}(\lambda _{1}\parallel \lambda _{2})=\lambda _{1}\log {\frac {\lambda _{1}}{\lambda _{2}}}-\lambda _{1}+\lambda _{2}{\text{.}}$

別の例として、単位分散を持つ正規分布の場合、十分な統計量は、自然パラメータは、対数分割関数はとなる。したがって、2つの正規分布と間の乖離は、 $N(\mu,1)$ $T(x)=x$ $\theta =\mu$ $A(\theta )=\mu ^{2}/2$ $N(\mu _{1},1)$ $N(\mu _{2},1)$

$D_{\text{KL}}(\mu _{1}\parallel \mu _{2})=\left(\mu _{1}-\mu _{2}\right)\mu _{1}-{\frac {\mu _{1}^{2}}{2}}+{\frac {\mu _{2}^{2}}{2}}={\frac {{\left(\mu _{2}-\mu _{1}\right)}^{2}}{2}}{\text{.}}$

最後の例として、単位分散の正規分布と平均のポアソン分布の間の乖離は $N(\mu,1)$ $\lambda$

$D_{\text{KL}}(\mu \Parallel \lambda )=(\mu -\log \lambda )\mu -{\frac {\mu ^{2}}{2}}+\lambda {\text{.}}$

指標との関係

相対エントロピーは統計的距離であるが、確率分布空間上の計量ではなく、発散である。^[4]計量は対称であり、線形距離を一般化し、三角不等式を満たす。一方、発散は一般に非対称であり、二乗距離を一般化し、場合によっては一般化ピタゴラスの定理を満たす。一般にはと等しくなく、これは対称化できる（§ 対称化された発散を参照）が、この非対称性は幾何学の重要な部分である。^[4] $D_{\text{KL}}(P\parallel Q)$ $D_{\text{KL}}(Q\parallel P)$

これは確率分布の空間上の位相を生成する。より具体的には、が次のような分布の列である場合、 $\{P_{1},P_{2},\ldots \}$

$\lim _{n\to \infty }D_{\text{KL}}(P_{n}\parallel Q)=0{\text{,}}$

そして、

$P_{n}\xrightarrow {D} \,Q{\text{.}}$

ピンスカーの不等式は、

$P_{n}\xrightarrow {D} P\Rightarrow P_{n}\xrightarrow {TV} P{\text{,}}$

ここで後者は全変化における通常の収束を表します。

フィッシャー情報量

相対エントロピーはフィッシャー情報量に直接関係している。これは次のように明示できる。確率分布 $P$ と $Qが$ 、どちらも何らかの（おそらく多次元の）パラメータによってパラメータ化されていると仮定する。そして、パラメータがパラメータ値とわずかに異なるような、2つの近接した値とを考える。具体的には、1次の場合まで（アインシュタインの総和規則を用いると） $\theta$ $P=P(\theta )$ $Q=P(\theta _{0})$ $\theta$ $\theta _{0}$ $P(\theta )=P(\theta _{0})+\Delta \theta _{j}\,P_{j}(\theta _{0})+\cdots$

$j$ 方向の小さな変化と、それに対応する確率分布の変化率を伴います。相対エントロピーはに対して絶対最小値0を持つため、つまりの小さなパラメータに対しては2次までしか変化しません。より正式には、任意の最小値の場合と同様に、発散の1次導関数は0になります。 $\Delta \theta _{j}=(\theta -\theta _{0})_{j}$ $\theta$ $P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta _{j}}}(\theta _{0})$ $P=Q$ $\theta =\theta _{0}$ $\Delta \theta _{j}$

$\left.{\frac {\partial }{\partial \theta _{j}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))=0,$

テイラー展開により、2次まで

$D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\,\Delta \theta _{j}\,\Delta \theta _{k}\,g_{jk}(\theta _{0})+\cdots$

ここで、発散のヘッセ行列は

$g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta _{j}\,\partial \theta _{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))$

は半正定値でなければならない。を変化させ（そして添え字0を消す）、ヘッセ行列は $θ$ パラメータ空間上の（おそらく退化した）リーマン計量を定義し、これをフィッシャー情報計量と呼ぶ。 $\theta _{0}$ $g_{jk}(\theta )$

フィッシャー情報計量定理

関連する定理がある。^{[3] が}以下の正則性条件を満たす場合： $p_{(x,\rho )}$

${\frac {\partial \log(p)}{\partial \rho }},{\frac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}$ 存在する、 ${\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}$

ここで $ξは$ $ρ$ に依存しない $\left.\int _{x=0}^{\infty}{\frac {\partial p(x,\rho)}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty}{\frac {\partial ^{2}p(x,\rho)}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0$

それから： ${\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}\left(\rho ^{3}\right){\text{ }}\rho \to 0{\text{.}}$

情報のバリエーション

もう一つの情報理論的計量として、情報量の変動があります。これは、条件付きエントロピーの対称化に近いものです。これは、離散確率空間の分割集合に関する計量です。

モーブメトリック

MAUVEは、モデルによって生成されたテキストと人間が書いたテキストの差など、2つのテキスト分布間の統計的ギャップを測る指標です。この指標は、基礎モデルの量子化埋め込み空間における2つの分布間のカルバック・ライブラー情報を用いて計算されます。

他の情報量理論との関係

情報理論の他の量の多くは、特定のケースへの相対エントロピーの適用として解釈できます。

自己情報

自己情報量は、信号、ランダム変数、またはイベントの情報量とも呼ばれ、特定の結果が発生する確率の負の対数として定義されます。

離散確率変数に適用した場合、自己情報は次のように表される^[要引用]

$\operatorname {\operatorname {I} } (m)=D_{\text{KL}}\left(\delta _{\text{im}}\parallel \{p_{i}\}\right),$

は、クロネッカーデルタからの確率分布の相対エントロピーであり、という確実性を表します。つまり、という事実ではなく、確率分布のみが受信者に利用可能である場合に、 $i を$ 識別するために送信する必要がある追加ビットの数です。 $P(i)$ $i=m$ $P(i)$ $i=m$

相互情報

相互情報量、

${\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P_{X,Y}\parallel P_{X}\cdot P_{Y})\\&=\operatorname {E} _{X}[D_{\text{KL}}^{Y}(P_{Y\mid X}\parallel P_{Y})]\\&=\operatorname {E} _{Y}[D_{\text{KL}}^{X}(P_{X\mid Y}\parallel P_{X})]\end{aligned}}$

は、 2 つの周辺確率分布の積から得られる結合確率分布の相対エントロピーです。つまり、結合分布ではなく周辺分布のみを使用して X と Y をコード化した場合に、 $X$ と $Y を$ 識別するために送信する必要がある追加ビットの予想数です。 $P_{X,Y}(x,y)$ $(P_{X}\cdot P_{Y})(x,y)=P_{X}(x)P_{Y}(y)$

シャノンエントロピー

シャノンエントロピー、

${\begin{aligned}\mathrm {H} (X)&=\operatorname {E} \left[\operatorname {I} _{X}(x)\right]\\&=\log N-D_{\text{KL}}{\left(p_{X}(x)\parallel P_{U}(X)\right)}\end{aligned}}$

$は、 N 個の$ 等確率の可能性から $X を$ 識別するために送信しなければならないビット数から、 $X$ のランダム変量に対する一様分布の相対エントロピー、つまり真の分布からの相対エントロピーを引いたものです。つまり、 $X$ の値が真の分布ではなく一様分布に従ってコード化されていた場合に送信されるはずだった、節約されるビット数の期待値を引いたものです。シャノンのエントロピーのこの定義は、ET Jaynesによる連続分布への別の一般化、つまり離散点の極限密度(通常の微分エントロピーとは対照的) の基礎を形成し、連続エントロピーを次のように定義します。これは次と同等です。 $P_{U}(X)$ $P(X)$ $P_{U}(X)$ $P(X)$ $\lim _{N\to \infty }H_{N}(X)=\log N-\int p(x)\log {\frac {p(x)}{m(x)}}\,dx{\text{,}}$ $\log(N)-D_{\text{KL}}(p(x)||m(x))$

条件付きエントロピー

条件付きエントロピー^[34 ]

${\begin{aligned}\mathrm {H} (X\mid Y)&=\log N-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\[5pt]&=\log N-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\[5pt]&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\[5pt]&=\log N-\operatorname {E} _{Y}\left[D_{\text{KL}}\left(P\left(X\mid Y\right)\parallel P_{U}(X)\right)\right]\end{aligned}}$

$は、 N 個$ の同等の可能性から $X を$ 識別するために送信しなければならないビット数であり、積分布からの真の結合分布の相対エントロピーを差し引いたものです。つまり、 Y が与えられた場合の $X$ の条件付き分布ではなく均一 $分布$ に従って $X$ の値がコード化された場合に送信しなければならなかったであろう節約されたビット数の予想値を差し引いたものです。 $P(X,Y)$ $P_{U}(X)P(Y)$ $P_{U}(X)$ $P(X|Y)$

交差エントロピー

$分布p$ から得られる可能性のあるイベントの集合がある場合、エントロピー符号化を使用してそれらを（可逆データ圧縮を使用して）符号化できます。これは、各固定長入力シンボルを対応する一意の可変長のプレフィックスフリーコードに置き換えることによってデータを圧縮します（例：確率 p = (1/2, 1/4, 1/4) のイベント（A、B、C）は、ビット（0、10、11）として符号化できます）。分布 $p$ が事前にわかっている場合は、最適な符号化を考案できます（例：ハフマン符号化を使用）。つまり、符号化したメッセージは平均して最短の長さになり（符号化されたイベントが $p$ からサンプリングされていると仮定）、これは $p$ のシャノンのエントロピー（と表記）に等しくなります。ただし、エントロピー符号化方式を作成するときに異なる確率分布（ $q$ ）を使用すると、一連の可能性からイベントを識別するために（平均して）より多くのビットが使用されます。この新しい（より大きな）数値は、 $p$ と $q$ 間のクロスエントロピーによって測定されます。 $\mathrm {H} (p)$

2つの確率分布（ $p$ と $q$ ）間のクロスエントロピーは、真の分布 p ではなく、与えられた確率分布 q に基づく符号化方式が使用される場合に、複数の可能性から $イベント$ を識別するために必要な平均ビット数を測定する $。$ したがって、同じ確率空間における2つの分布 $p$ と $q$ のクロスエントロピーは、次のように定義される。

$\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\text{KL}}(p\Parallel q)$

この明確な導出については、上記の「動機」セクションを参照してください。

$このシナリオでは、相対エントロピー（kl ダイバージェンス）は、エンコード方式の構築にp$ ではなく $q$ を使用するため、イベントをエンコードするために必要な平均して追加のビット数（を超える）として解釈できます。 $\mathrm {H} (p)$

ベイズ更新

ベイズ統計学では、相対エントロピーは、事前分布から事後分布への移行における情報利得の尺度として用いられる：。新たな事実が発見された場合、ベイズの定理を用いて、 $X$ の事後分布を新たな事後分布に更新することができる： $p(x)\to p(x\mid I)$ $Y=y$ $p(x\mid I)$ $p(x\mid y,I)$

$p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}$

この分布には新しいエントロピーがあります:

$\mathrm {H} {\big (}p(x\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I){\text{,}}$

これは元のエントロピーよりも小さくなる場合もあれば、大きくなる場合もあります。しかし、新しい確率分布の観点からは、に基づく新しいコードの代わりにに基づく元のコードを使用した場合、期待されるビット数が追加されると推定できます。 $\mathrm {H} (p(x\mid I))$ $p(x\mid I)$ $p(x\mid y,I)$

$D_{\text{KL}}{\big (}p(x\mid y,I)\parallel p(x\mid I){\big )}=\sum _{x}p(x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)}}$

メッセージの長さに比例します。したがって、これはを発見することによって得られた $X$ に関する有用な情報の量、つまり情報利得を表します。 $Y=y$

その後、新たなデータが加わると、 $x$ の確率分布はさらに更新され、新たな最良推定値が得られます。ではなくを用いた場合の情報ゲインを再調査すると、以前の推定値よりも大きくなる場合もあれば小さくなる場合もあります。 $Y_{2}=y_{2}$ $p(x\mid y_{1},y_{2},I)$ $p(x\mid y_{1},I)$ $p(x\mid I)$

$\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}$ ≤ または > となる可能性がある ${\textstyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I)}}}$

そして、総合的な情報利得は三角不等式に従わない。

$D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid I){\big )}$ <、=、または>のいずれかである可能性があります $D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(x\mid y_{1},I)\parallel p(x\mid I){\big )}$

言えることは、平均すると、を使用して平均すると、両側が平均化されるということです。 $p(y_{2}\mid y_{1},x,I)$

ベイズ実験計画

ベイズ実験計画法における共通の目標は、事前分布と事後分布の間の期待相対エントロピーを最大化することである。^[35]事後分布がガウス分布に近似される場合、期待相対エントロピーを最大化する計画はベイズd最適と呼ばれる。

差別情報

相対エントロピーは、を超える場合の期待される識別情報、つまり、仮説が正しい場合に、仮説に対して仮説を支持する識別情報の平均サンプルあたりとして解釈することもできます。 ^[36]IJ Goodによって付けられたこの量の別名は、各サンプルからを超える場合の期待される証拠の重みです。 ${\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}$ $H_{1}$ $H_{0}$ $H_{1}$ $H_{0}$ $H_{1}$ $H_{1}$ $H_{0}$

以上の証拠の期待値は、仮説の確率分布に関するサンプルあたりの期待情報ゲインと同じではない。 $H_{1}$ $H_{0}$ $p(H)$

$D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)){\text{.}}$

2 つの量のいずれかをベイズ実験設計の効用関数として使用し、次に調査する最適な質問を選択できます。ただし、一般的には、それらはかなり異なる実験戦略につながります。

情報ゲインのエントロピースケールでは、ほぼ確実性と絶対的確実性の間にはほとんど違いがありません。つまり、ほぼ確実性に従ってコーディングする場合に必要なビット数は、絶対的確実性に従ってコーディングする場合と比べてほとんど変わりません。一方、証拠の重みによって示されるロジットスケールでは、両者の違いは非常に大きく、おそらくは無限大です。これは、例えばリーマン予想が正しいと（確率レベルで）ほぼ確信している場合と、数学的証明があるためにリーマン予想が正しいと確信している場合の違いを反映しているのかもしれません。不確実性に関する損失関数のこれら2つの異なるスケールは、それぞれが問題の特定の状況をどの程度よく反映しているかによって、どちらも有用となります。

最小識別情報の原則

相対エントロピーを識別情報として捉えるという考えから、カルバックは最小識別情報(MDI元の分布とできるだけ区別しにくい新しい分布 $f$ 。これにより、新しいデータが生成する情報ゲインができるだけ小さくなります。 $f_{0}$ $D_{\text{KL}}(f\parallel f_{0})$

たとえば、 $x$ と $a の$ 事前分布があり、その後 $a$ の真の分布がであると知った場合、 $x$ と $a$ の新しい結合分布、と以前の事前分布間の相対エントロピーは次のようになります。 $p(x,a)$ $u(a)$ $q(x\mid a)u(a)$

$D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),$

すなわち、更新された分布からの $a$ の事前分布の相対エントロピーの合計と、新しい条件付き分布からの事前条件付き分布の相対エントロピーの期待値 (確率分布を使用) を加えたものになります。 (後者の期待値は条件付き相対エントロピー(または条件付きカルバック–ライブラー情報) と呼ばれ、^[3]^[34]と表記されることに注意してください)。これは、のサポート全体での場合に最小化されます。また、新しい分布が実際に $a が$ 特定の 1 つの値を持つことの確実性を表す δ 関数である場合、この結果にベイズの定理が組み込まれていることに注意してください。 $p(a)$ $u(a)$ $u(a)$ $p(x\mid a)$ $q(x\mid a)$ $D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))$ $q(x\mid a)=p(x\mid a)$ $u(a)$ $u(a)$

MDIは、ラプラスの不十分理由原理、およびETジェインズの最大エントロピー原理の拡張と見ることができます。特に、最大エントロピー原理を離散分布から連続分布へと自然に拡張したもので、シャノンエントロピーはそれほど有用ではなくなります（微分エントロピーを参照）。しかし、相対エントロピーは依然として同様に重要です。

工学文献では、MDIは最小交差エントロピー原理（MCE）または略してMinxentと呼ばれることもあります $。mから$ $p$ への相対エントロピーを $m$ に関して最小化することは、 $p$ と $m$ の交差エントロピーを最小化することと等価です。

$\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\Parallel m),$

$これは、 p$ の適切な近似値を選択しようとする場合には適切です。しかし、多くの場合、これは達成しようとしている課題ではありません。むしろ、多くの場合、 $m$ は何らかの固定された事前参照尺度であり、 $p$ は何らかの制約の下で最小化することで最適化しようとしています。このため、文献には曖昧さが生じており、一部の著者は、クロスエントロピーを^[^要出典^]ではなくと再定義することで、この矛盾を解決しようとしています。 $D_{\text{KL}}(p\parallel m)$ $D_{\text{KL}}(p\parallel m)$ $\mathrm {H} (p,m)$

利用可能な仕事との関係

圧力対体積プロット。アルゴンガス1モルから得られる仕事量を周囲圧力に対して相対的に表したもの。カルバック・ライブラー距離の倍数として計算。 $T_{o}$

驚き^{[37]は確率が乗算されるところに加算されます。確率} $p$ の事象に対する驚きはと定義されます。kがの場合 $、$ 驚きはnats、bits、またはの単位になります。例えば、 $N$ 枚のコインを投げてすべて「表」が出た場合、Nビットの驚きが $ある$ ことになります。 $s=-k\ln p$ $\left\{1,1/\ln 2,1.38\times 10^{-23}\right\}$ $\{$ $J/K\}$

最善の推測状態（例えば気体中の原子）は、与えられた制御パラメータ（圧力 $P$ や体積 $Vなど）における$ 平均サプライズ $S$ （エントロピー）を最大化することによって推論されます。この制約付きエントロピー最大化は、古典力学的^[38]と量子力学的^[39]の両方において、エントロピー単位におけるギブス可用性を最小化します^[40]。ここで、 $Z$ は制約付き多重度または分配関数です。 $A\equiv -k\ln Z$

温度 $T$ が一定であれば、自由エネルギー（）も最小化されます。したがって、分子数 $N$ が一定であれば、系が「平衡状態」になると、ヘルムホルツの自由エネルギー（ $U$ はエネルギー、 $S$ はエントロピー）は最小化されます。Tと $P$ $が$ 一定に保たれている場合（例えば、体内での処理中）、代わりにギブスの自由エネルギーが最小化されます。これらの条件下での自由エネルギーの変化は、そのプロセスで行われる可能性のある利用可能な仕事の尺度となります。したがって、一定の温度と圧力における理想気体の利用可能な仕事は、であり、です（ギブスの不等式も参照）。 $T\times A$ $T,V$ $F\equiv U-TS$ $G=U+PV-TS$ $T_{o}$ $P_{o}$ $W=\デルタ G=NkT_{o}\シータ (V/V_{o})$ $V_{o}=NkT_{o}/P_{o}$ $\Theta (x)=x-1-\ln x\geq 0$

より一般的には^[41]、ある周囲温度に対する相対的な仕事量は、周囲温度に相対エントロピー、つまりの平均値として定義される正味サプライズを乗じることによって得られる。ここでは周囲条件下での与えられた状態の確率である。例えば、単原子理想気体をおよびの周囲値に平衡させるのに利用可能な仕事量はであり、ここで相対エントロピーは $T_{o}$ $\Delta I\geq 0,$ $k\ln(p/p_{o})$ $p_{o}$ $V_{o}$ $T_{o}$ $W=T_{o}\デルタ I$

$\Delta I=Nk\left[\Theta {\left({\frac {V}{V_{o}}}\right)}+{\frac {3}{2}}\Theta {\left({\frac {T}{T_{o}}}\right)}\right].$

右図に示すように、標準温度・圧力におけるアルゴン1モルの相対エントロピー定数の等高線は、例えば、炎で動くエアコンや、ここで議論されている熱湯を氷水に変える無動力装置における熱から冷気への変換に制限を課す。^[42]このように、相対エントロピーは熱力学的利用可能性をビット単位で測定する。

量子情報理論

ヒルベルト空間上の密度行列 $P$ と $Q$ に対して、 $Q$ から $P$ への量子相対エントロピーは次のように定義される。

$D_{\text{KL}}(P\parallel Q)=\operatorname {Tr} (P(\log P-\log Q)).$

量子情報科学では、すべての分離可能な状態 $Q$ の最小値は、状態 $Pにおける$ エンタングルメントの尺度としても使用できます。 $D_{\text{KL}}(P\parallel Q)$

モデルと現実の関係

「周囲温度からの実測値」の相対エントロピーが熱力学的利用可能性を測るのと同様に、「モデルからの現実値」の相対エントロピーも、たとえ現実に関する唯一の手がかりが実験測定のみであったとしても有用です。前者の場合、相対エントロピーは平衡状態までの距離、あるいは（周囲温度を乗じた場合）利用可能な仕事量を表します。一方、後者の場合、現実が秘めている驚くべき事実、言い換えれば、モデルがまだどれだけ学習していないかを示します。

実験的にアクセス可能なシステムに対してモデルを評価するこのツールは、あらゆる分野に適用できますが、赤池情報量基準を用いた統計モデルの選択への応用については、バーナムとアンダーソンによる論文^[43]と書籍^[44]で特に詳しく説明されています。簡単に言えば、モデルからの現実の相対エントロピーは、データとモデルの予測値（平均二乗偏差など）の間で観測された偏差の関数によって、一定の加法項の範囲内で推定できます。同じ加法項を共有するモデル間のこのような乖離の推定値は、モデルの選択に使用できます。

パラメータ化されたモデルをデータに適合させようとする場合、最大尤度推定値や最大間隔推定値など、相対エントロピーを最小化しようとするさまざまな推定値があります。^{[引用が必要]}

対称化された発散

Kullback & Leibler (1951) も対称化された関数を検討した: ^[6]

$D_{\text{KL}}(P\parallel Q)+D_{\text{KL}}(Q\parallel P)$

彼らはこれを「ダイバージェンス」と呼んでいましたが、今日では「KLダイバージェンス」は非対称関数を指します（用語の変遷については§ 語源を参照）。この関数は対称かつ非負であり、1948年にハロルド・ジェフリーズによって既に定義・使用されていました。 ^{[7]そのため、}ジェフリーズ・ダイバージェンスと呼ばれています。

この量は分類問題における特徴選択に用いられることがあり、 $P$ と $Qは$ 2つの異なるクラスにおける特徴量の条件付き確率密度関数です。銀行・金融業界では、この量は人口安定指数（PSI ）と呼ばれ、モデル特徴量の分布の経時的変化を評価するために使用されます。

代替案は-発散を介して与えられ、 $\lambda$

$D_{\lambda }(P\Parallel Q)=\lambda D_{\text{KL}}(P\Parallel \lambda P+(1-\lambda )Q)+(1-\lambda )D_{\text{KL}}(Q\Parallel \lambda P+(1-\lambda )Q){\text{,}}$

これは、現在それぞれ確率がPまたはQ である場合に、 $X が$ どの確率分布 $P$ または $Q$ から抽出されるかを発見することによる、 $X$ に関する期待情報ゲインとして解釈できます。^[^{説明が必要}^]^[^{引用が必要}^] $\lambda$ $1-\lambda$

この値は、次のように定義されるジェンセン・シャノン距離を与える。 $\lambda =0.5$

$D_{\text{JS}}={\tfrac {1}{2}}D_{\text{KL}}(P\parallel M)+{\tfrac {1}{2}}D_{\text{KL}}(Q\parallel M)$

ここで $M$ は2つの分布の平均であり、

$M={\tfrac {1}{2}}\left(P+Q\right){\text{.}}$

$出力分布P$ と $Q$ を与える2つの入力を持つノイズのある情報通信路の容量として解釈することもできます。ジェンセン・シャノン距離は、他のすべての $f$ ダイバージェンスと同様に、フィッシャー情報量に局所的に比例します。これはヘリンガー距離と類似しています（統計多様体に同じアフィン接続を誘導するという意味で）。 $D_{\text{JS}}$

さらに、ジェンセン・シャノン情報量は、抽象的な平均Mに依存する抽象的な統計的M混合を用いて一般化することができる。^[45]^[46]

他の確率距離尺度との関係

確率距離の重要な尺度は他にも数多く存在します。その中には、特に相対エントロピーと関連するものがあります。例えば、

全変動距離, 。これはピンスカー不等式を介して発散と結びついている。ピンスカー不等式はとなる分布に対しては空である。なぜなら、全変動距離は最大でも $1 であるからである。このような分布に対しては、$ BretagnolleとHuber ^{[47] （Tsybakov}^[48]も参照）による別の境界を用いることができる。 $\delta (p,q)$ $\delta (P,Q)\leq {\sqrt {{\tfrac {1}{2}}D_{\text{KL}}(P\parallel Q)}}.$ $D_{\mathrm {KL} }(P\Parallel Q)>2$ $\delta (P,Q)\leq {\sqrt {1-e^{-D_{\mathrm {KL} }(P\Parallel Q)}}}.$
レーニイ情報量は相対エントロピーを一般化する。特定のパラメータの値に応じて、様々な不等式が導かれる。 $\alpha$

その他の注目すべき距離の尺度としては、ヘリンガー距離、ヒストグラム交差、カイ二乗統計量、二次形式距離、一致距離、コルモゴロフ・スミルノフ距離、アースムーバー距離などがある。^[49]

データの差分

絶対エントロピーがデータ圧縮の理論的背景として機能するのと同様に、相対エントロピーはデータ差分の理論的背景として機能します。つまり、データセットの絶対エントロピーはそれを再構築するために必要なデータ (最小圧縮サイズ) であり、ソースデータセットが与えられた場合のターゲットデータセットの相対エントロピーは、ソースが与えられた場合のターゲットの再構築に必要なデータ (パッチの最小サイズ) です。

参照

参考文献

^ ab Csiszar, I (1975年2月). 「確率分布と最小化問題のI-ダイバージェンス幾何学」. Ann. Probab . 3 (1): 146– 158. doi : 10.1214/aop/1176996454 .
^ Kullback, S. ; Leibler, RA (1951). 「情報と十分性について」Annals of Mathematical Statistics . 22 (1): 79– 86. doi : 10.1214/aoms/1177729694 . JSTOR 2236703. MR 0039968.
^ abcd カルバック 1959.
^ abcde Amari 2016、11ページ。
^ ab アマリ 2016、28ページ。
^ Kullback & Leibler 1951、p.80より。
^ ジェフリーズ 1948年、158ページより。
^ カルバック 1959年、7ページ。
^ Kullback, S. (1987). 「編集者への手紙：Kullback–Leibler距離」. The American Statistician . 41 (4): 340– 341. doi :10.1080/00031305.1987.10475510. JSTOR 2684769.
^ カルバック 1959年、6ページ。
^ MacKay, David JC (2003). 『情報理論、推論、学習アルゴリズム』（第1版）. Cambridge University Press. p. 34. ISBN 978-0-521-64298-9– Google ブックス経由。
^ 「Kullback-Leibler（KL）ダイバージェンスの最大値は？」機械学習。Statistics Stack Exchange（stats.stackexchange.com）。クロス検証済み。
^ 「どのような状況で積分は無限大に等しいのか？」積分。数学スタックエクスチェンジ（math.stackexchange.com）。
^ ビショップ、クリストファーM.パターン認識と機械学習.p.55.OCLC 1334664824 .
^ カルバック 1959年、5ページ。
^ Burnham, KP; Anderson, DR (2002).モデル選択とマルチモデル推論（第2版）. Springer. p. 51. ISBN 978-0-387-95364-9。
^ Abdulkadirov, Ruslan; Lyakhov, Pavel; Nagornov, Nikolay (2023年1月). 「現代ニューラルネットワークにおける最適化アルゴリズムの概説」.数学. 11 (11): 2466. doi : 10.3390/math11112466 . ISSN 2227-7390.
^ マタッサ、マルコ（2021年12月）「量子射影空間におけるフビニ・スタディ計量とレヴィ・チヴィタ接続」『数学の進歩』 393-108101 . arXiv : 2010.03291 . doi : 10.1016 /j.aim.2021.108101 . ISSN 0001-8708.
^ Lan, Guanghui (2023年3月). 「強化学習のための方策ミラー降下法：線形収束、新たなサンプリング複雑性、そして一般化された問題クラス」.数理計画. 198 (1): 1059–1106 . arXiv : 2102.00135 . doi :10.1007/s10107-022-01816-5. ISSN 1436-4646.
^ Kelly, JL Jr. (1956). 「情報速度の新しい解釈」. Bell Syst. Tech. J. 2 ( 4): 917– 926. doi :10.1002/j.1538-7305.1956.tb03809.x.
^ Soklakov, AN (2020). 「意見の相違の経済学 ― レーニイ・ダイバージェンスに関する金融直感」.エントロピー. 22 (8): 860. arXiv : 1811.08308 . Bibcode :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462. PMID 33286632 .
^ Soklakov, AN (2023). 「リスクとリターンの情報幾何学」. Risk . 6月. SSRN 4134885.
^ ヘニデ、カリム（2024年9月30日）「フローライダー：取引可能なエコシステムのフローの相対エントロピーが相対価値の決定要因となる」『投資ジャーナル』33 (6): 34–58 . doi :10.3905/joi.2024.1.321.
^ Sanov, IN (1957). 「ランダムな大きさの大きな偏差の確率について」. Mat. Sbornik . 42 (84): 11–44 .
^ Novak SY (2011),極値法とファイナンスへの応用ch. 14.5 ( Chapman & Hall ). ISBN 978-1-4398-3574-6。
^ ホブソン、アーサー (1971).統計力学の概念. ニューヨーク: ゴードン・アンド・ブリーチ. ISBN 978-0-677-03240-5。
^ Bonnici, V. (2020). 「量子分布間のカルバック・ライブラー距離とその上限」arXiv : 2008.05932 [cs.LG].
^ セルジオ・ヴェルドゥNIPS 2009による相対エントロピービデオ講義の「微分エントロピー - 4」のセクションを参照
^ ドンスカー, モンロー D.; ヴァラダン, SR スリニヴァサ (1983). 「長時間における特定のマルコフ過程期待値の漸近的評価 IV」.純粋・応用数学通信. 36 (2): 183– 212. doi :10.1002/cpa.3160360204.
^ Duchi J.「線形代数と最適化の導出」（PDF）。p.13。
^ Belov, Dmitry I.; Armstrong, Ronald D. (2011-04-15). 「Kullback-Leibler divergence の分布とその応用」. British Journal of Mathematical and Statistical Psychology . 64 (2): 291– 309. doi :10.1348/000711010x522227. ISSN 0007-1102. PMID 21492134.
^ ab Buchner, Johannes (2022-04-29).物理学者のための直感：実験からの情報獲得. OCLC 1363563215.
^ ニールセン, フランク; ガルシア, ヴィンセント (2011). 「統計的指数関数族：フラッシュカード付きダイジェスト」. arXiv : 0911.4863 [cs.LG].
^ ab Cover, Thomas M.; Thomas, Joy A. (1991) 『情報理論の要素』John Wiley & Sons , p. 22
^ Chaloner, K.; Verdinelli, I. (1995). 「ベイズ実験デザイン：レビュー」.統計科学. 10 (3): 273– 304. doi : 10.1214/ss/1177009939 . hdl : 11299/199630 .
^ Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). 「Section 14.7.2. Kullback–Leibler Distance」.数値計算レシピ：科学計算の芸術（第3版）. Cambridge University Press. ISBN 978-0-521-88068-8。
^ トリバス、マイロン (1959). 『サーモスタティックスと熱力学：エネルギー、情報、物質の状態への入門、工学的応用』ヴァン・ノストランド.
^ Jaynes, ET (1957). 「情報理論と統計力学」(PDF) . Physical Review . 106 (4): 620– 630. Bibcode :1957PhRv..106..620J. doi :10.1103/physrev.106.620. S2CID 17870175.
^ Jaynes, ET (1957). 「情報理論と統計力学 II」(PDF) . Physical Review . 108 (2): 171– 190. Bibcode :1957PhRv..108..171J. doi :10.1103/physrev.108.171.
^ ギブス、ジョサイア・ウィラード (1871). 『表面による物質の熱力学的性質の幾何学的表現法』アカデミー.脚注52ページ。
^ Tribus, M.; McIrvine, EC (1971). 「エネルギーと情報」. Scientific American . 224 (3): 179– 186. Bibcode :1971SciAm.225c.179T. doi :10.1038/scientificamerican0971-179.
^ Fraundorf, P. (2007). 「相関に基づく複雑性の熱的根」. Complexity . 13 (3): 18– 26. arXiv : 1103.2481 . Bibcode :2008Cmplx..13c..18F. doi :10.1002/cplx.20195. S2CID 20794688. 2011年8月13日時点のオリジナルよりアーカイブ。
^ Burnham, KP; Anderson, DR (2001). 「生態学的研究における強力な推論の基盤としてのKullback–Leibler情報」. Wildlife Research . 28 (2): 111– 119. doi : 10.1071/WR99107 .
^ バーナム、ケネス・P.（2010年12月）.モデル選択とマルチモデル推論：実践的な情報理論的アプローチ. シュプリンガー. ISBN 978-1-4419-2973-0. OCLC 878132909。
^ ニールセン、フランク (2019). 「抽象的手段に基づく距離のジェンセン・シャノン対称化について」.エントロピー. 21 (5): 485. arXiv : 1904.04017 . Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974. PMID 33267199 .
^ ニールセン、フランク (2020). 「ジェンセン・シャノン・ダイバージェンスとジェンセン・シャノン・セントロイドの一般化について」.エントロピー. 22 (2): 221. arXiv : 1912.00610 . Bibcode :2020Entrp..22..221N. doi : 10.3390/e22020221 . PMC 7516653. PMID 33285995 .
^ ブレタニョール、J.; Huber, C. (1978)、「Estimation des densités : Risque minimax」、Séminaire de Probabilités XII、Lecture Notes in Mathematics (フランス語)、vol. 649、ベルリン、ハイデルベルク：シュプリンガーベルリンハイデルベルク、pp. 342–363、doi :10.1007/bfb0064610、ISBN 978-3-540-08761-8、S2CID 122597694補題2.1
^ B.), Tsybakov, AB (Alexandre (2010).ノンパラメトリック推定入門. Springer. ISBN 978-1-4419-2709-5. OCLC 757859245。{{cite book}}: CS1 maint: 複数の名前: 著者リスト (リンク)式2.25.
^ Rubner, Y.; Tomasi, C.; Guibas, LJ (2000). 「画像検索における地球移動距離の指標」. International Journal of Computer Vision . 40 (2): 99– 121. doi :10.1023/A:1026543900054. S2CID 14106275.

天理俊一(2016).情報幾何学とその応用. 応用数理科学. 第194巻. シュプリンガー・ジャパン. pp. XIII, 374. doi :10.1007/978-4-431-55978-8. ISBN 978-4-431-55977-1。
カルバック、ソロモン（1959年）、情報理論と統計、ジョン・ワイリー・アンド・サンズ1968年にドーバー出版から再出版、1978年に再版：ISBN 0-8446-5625-9。
ジェフリーズ、ハロルド（1948年）『確率論』（第2版）オックスフォード大学出版局。

外部リンク

情報理論的推定ツールボックス
カルバック・ライブラー距離を計算するための Ruby gem
ジョン・シュレンズによるカルバック・ライブラー距離と尤度理論に関するチュートリアル
離散分布のカルバック・ライブラー距離を計算するためのMATLABコード 2007年9月29日アーカイブ、Wayback Machineにて
Sergio Verdú、「相対エントロピー」、NIPS 2009。1 時間のビデオ講義。
情報理論的ダイバージェンス尺度の現代的な要約

[Csiszar-1] Csiszar, I (1975年2月). 「確率分布と最小化問題のI-ダイバージェンス幾何学」. Ann. Probab . 3 (1): 146– 158. doi : 10.1214/aop/1176996454 .

[KullbackLeibler1951-2] Kullback, S. ; Leibler, RA (1951). 「情報と十分性について」Annals of Mathematical Statistics . 22 (1): 79– 86. doi : 10.1214/aoms/1177729694 . JSTOR 2236703. MR 0039968.

[FOOTNOTEKullback1959-3] カルバック 1959.

[FOOTNOTEAmari201611-4] Amari 2016、11ページ。

[FOOTNOTEAmari201628-5] アマリ 2016、28ページ。

[FOOTNOTEKullbackLeibler195180-6] Kullback & Leibler 1951、p.80より。

[FOOTNOTEJeffreys1948158-7] ジェフリーズ 1948年、158ページより。

[FOOTNOTEKullback19597-8] カルバック 1959年、7ページ。

[Kullback1987-9] Kullback, S. (1987). 「編集者への手紙：Kullback–Leibler距離」. The American Statistician . 41 (4): 340– 341. doi :10.1080/00031305.1987.10475510. JSTOR 2684769.

[FOOTNOTEKullback19596-10] カルバック 1959年、6ページ。

[MacKey2003-11] MacKay, David JC (2003). 『情報理論、推論、学習アルゴリズム』（第1版）. Cambridge University Press. p. 34. ISBN 978-0-521-64298-9– Google ブックス経由。

[12] 「Kullback-Leibler（KL）ダイバージェンスの最大値は？」機械学習。Statistics Stack Exchange（stats.stackexchange.com）。クロス検証済み。

[13] 「どのような状況で積分は無限大に等しいのか？」積分。数学スタックエクスチェンジ（math.stackexchange.com）。

[14] ビショップ、クリストファーM.パターン認識と機械学習.p.55.OCLC 1334664824 .

[FOOTNOTEKullback19595-15] カルバック 1959年、5ページ。

[16] Burnham, KP; Anderson, DR (2002).モデル選択とマルチモデル推論（第2版）. Springer. p. 51. ISBN 978-0-387-95364-9。

[17] Abdulkadirov, Ruslan; Lyakhov, Pavel; Nagornov, Nikolay (2023年1月). 「現代ニューラルネットワークにおける最適化アルゴリズムの概説」.数学. 11 (11): 2466. doi : 10.3390/math11112466 . ISSN 2227-7390.

[18] マタッサ、マルコ（2021年12月）「量子射影空間におけるフビニ・スタディ計量とレヴィ・チヴィタ接続」『数学の進歩』 393-108101 . arXiv : 2010.03291 . doi : 10.1016 /j.aim.2021.108101 . ISSN 0001-8708.

[19] Lan, Guanghui (2023年3月). 「強化学習のための方策ミラー降下法：線形収束、新たなサンプリング複雑性、そして一般化された問題クラス」.数理計画. 198 (1): 1059–1106 . arXiv : 2102.00135 . doi :10.1007/s10107-022-01816-5. ISSN 1436-4646.

[20] Kelly, JL Jr. (1956). 「情報速度の新しい解釈」. Bell Syst. Tech. J. 2 ( 4): 917– 926. doi :10.1002/j.1538-7305.1956.tb03809.x.

[21] Soklakov, AN (2020). 「意見の相違の経済学 ― レーニイ・ダイバージェンスに関する金融直感」.エントロピー. 22 (8): 860. arXiv : 1811.08308 . Bibcode :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462. PMID 33286632 .

[22] Soklakov, AN (2023). 「リスクとリターンの情報幾何学」. Risk . 6月. SSRN 4134885.

[23] ヘニデ、カリム（2024年9月30日）「フローライダー：取引可能なエコシステムのフローの相対エントロピーが相対価値の決定要因となる」『投資ジャーナル』33 (6): 34–58 . doi :10.3905/joi.2024.1.321.

[Sanov-24] Sanov, IN (1957). 「ランダムな大きさの大きな偏差の確率について」. Mat. Sbornik . 42 (84): 11–44 .

[Novak-25] Novak SY (2011),極値法とファイナンスへの応用ch. 14.5 ( Chapman & Hall ). ISBN 978-1-4398-3574-6。

[26] ホブソン、アーサー (1971).統計力学の概念. ニューヨーク: ゴードン・アンド・ブリーチ. ISBN 978-0-677-03240-5。

[Bonnici2020-27] Bonnici, V. (2020). 「量子分布間のカルバック・ライブラー距離とその上限」arXiv : 2008.05932 [cs.LG].

[VerduLecture-28] セルジオ・ヴェルドゥNIPS 2009による相対エントロピービデオ講義の「微分エントロピー - 4」のセクションを参照

[29] ドンスカー, モンロー D.; ヴァラダン, SR スリニヴァサ (1983). 「長時間における特定のマルコフ過程期待値の漸近的評価 IV」.純粋・応用数学通信. 36 (2): 183– 212. doi :10.1002/cpa.3160360204.

[30] Duchi J.「線形代数と最適化の導出」（PDF）。p.13。

[31] Belov, Dmitry I.; Armstrong, Ronald D. (2011-04-15). 「Kullback-Leibler divergence の分布とその応用」. British Journal of Mathematical and Statistical Psychology . 64 (2): 291– 309. doi :10.1348/000711010x522227. ISSN 0007-1102. PMID 21492134.

[auto-32] Buchner, Johannes (2022-04-29).物理学者のための直感：実験からの情報獲得. OCLC 1363563215.

[33] ニールセン, フランク; ガルシア, ヴィンセント (2011). 「統計的指数関数族：フラッシュカード付きダイジェスト」. arXiv : 0911.4863 [cs.LG].

[CoverThomas-34] Cover, Thomas M.; Thomas, Joy A. (1991) 『情報理論の要素』John Wiley & Sons , p. 22

[35] Chaloner, K.; Verdinelli, I. (1995). 「ベイズ実験デザイン：レビュー」.統計科学. 10 (3): 273– 304. doi : 10.1214/ss/1177009939 . hdl : 11299/199630 .

[36] Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). 「Section 14.7.2. Kullback–Leibler Distance」.数値計算レシピ：科学計算の芸術（第3版）. Cambridge University Press. ISBN 978-0-521-88068-8。

[37] トリバス、マイロン (1959). 『サーモスタティックスと熱力学：エネルギー、情報、物質の状態への入門、工学的応用』ヴァン・ノストランド.

[38] Jaynes, ET (1957). 「情報理論と統計力学」(PDF) . Physical Review . 106 (4): 620– 630. Bibcode :1957PhRv..106..620J. doi :10.1103/physrev.106.620. S2CID 17870175.

[39] Jaynes, ET (1957). 「情報理論と統計力学 II」(PDF) . Physical Review . 108 (2): 171– 190. Bibcode :1957PhRv..108..171J. doi :10.1103/physrev.108.171.

[40] ギブス、ジョサイア・ウィラード (1871). 『表面による物質の熱力学的性質の幾何学的表現法』アカデミー.脚注52ページ。

[41] Tribus, M.; McIrvine, EC (1971). 「エネルギーと情報」. Scientific American . 224 (3): 179– 186. Bibcode :1971SciAm.225c.179T. doi :10.1038/scientificamerican0971-179.

[42] Fraundorf, P. (2007). 「相関に基づく複雑性の熱的根」. Complexity . 13 (3): 18– 26. arXiv : 1103.2481 . Bibcode :2008Cmplx..13c..18F. doi :10.1002/cplx.20195. S2CID 20794688. 2011年8月13日時点のオリジナルよりアーカイブ。

[43] Burnham, KP; Anderson, DR (2001). 「生態学的研究における強力な推論の基盤としてのKullback–Leibler情報」. Wildlife Research . 28 (2): 111– 119. doi : 10.1071/WR99107 .

[44] バーナム、ケネス・P.（2010年12月）.モデル選択とマルチモデル推論：実践的な情報理論的アプローチ. シュプリンガー. ISBN 978-1-4419-2973-0. OCLC 878132909。

[Nielsen2019-45] ニールセン、フランク (2019). 「抽象的手段に基づく距離のジェンセン・シャノン対称化について」.エントロピー. 21 (5): 485. arXiv : 1904.04017 . Bibcode :2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974. PMID 33267199 .

[Nielsen2020-46] ニールセン、フランク (2020). 「ジェンセン・シャノン・ダイバージェンスとジェンセン・シャノン・セントロイドの一般化について」.エントロピー. 22 (2): 221. arXiv : 1912.00610 . Bibcode :2020Entrp..22..221N. doi : 10.3390/e22020221 . PMC 7516653. PMID 33285995 .

[47] ブレタニョール、J.; Huber, C. (1978)、「Estimation des densités : Risque minimax」、Séminaire de Probabilités XII、Lecture Notes in Mathematics (フランス語)、vol. 649、ベルリン、ハイデルベルク：シュプリンガーベルリンハイデルベルク、pp. 342–363、doi :10.1007/bfb0064610、ISBN 978-3-540-08761-8、S2CID 122597694補題2.1

[48] B.), Tsybakov, AB (Alexandre (2010).ノンパラメトリック推定入門. Springer. ISBN 978-1-4419-2709-5. OCLC 757859245。{{cite book}}: CS1 maint: 複数の名前: 著者リスト (リンク)式2.25.

[earth-49] Rubner, Y.; Tomasi, C.; Guibas, LJ (2000). 「画像検索における地球移動距離の指標」. International Journal of Computer Vision . 40 (2): 99– 121. doi :10.1023/A:1026543900054. S2CID 14106275.