条件付きエントロピー

情報理論において、条件付きエントロピーは、ある確率変数の値が既知である場合に、別の確率変数の結果を記述するために必要な情報量を定量化します。ここで、情報はシャノン、ナット、またはハートレーの単位で測定されます。条件付きエントロピーはと表されます。 $Y$ $X$ $Y$ $X$ $\mathrm {H} (Y|X)$

意味

与えられた条件付きエントロピーは次のように定義される。 $Y$ $X$

\mathrm {H} (Y|X)\ =-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}

ここで、およびは、およびのサポートセットを表します。 ${\mathcal {X}}$ ${\mathcal {Y}}$ $X$ $Y$

注：ここでは、慣例的に式はゼロとみなされます。これは、のためです。^[1] $0\log 0$ $\lim _{\theta \to 0^{+}}\theta \,\log \theta =0$

直感的に、期待値と条件付き確率の定義により、はと表すことができます。ここではと定義されます。は、各ペアを、与えられたの情報量を測定する量と関連付けていると考えることができます。この量は、与えられた事象を記述するために必要な情報量と直接関係しています。したがって、のすべての値のペアについての期待値を計算すると、条件付きエントロピーは、変数がについて平均してどれだけの情報をエンコードしているかを測定します。 $\displaystyle H(Y|X)$ $H(Y|X)=\mathbb {E} [f(X,Y)]$ $f$ $\displaystyle f(x,y):=-\log \left({\frac {p(x,y)}{p(x)}}\right)=-\log(p(y|x))$ $\displaystyle f$ $\displaystyle (x,y)$ $\displaystyle (Y=y)$ $\displaystyle (X=x)$ $\displaystyle (Y=y)$ $(X=x)$ $\displaystyle f$ $(x,y)\in {\mathcal {X}}\times {\mathcal {Y}}$ $\displaystyle H(Y|X)$ $X$ $Y$

モチベーション

離散確率変数のエントロピーを、離散確率変数が特定の値を取ることを条件とする。とのサポート集合を、とで表記する。確率質量関数をとする。の無条件エントロピーはで計算される。すなわち、 $\mathrm {H} (Y|X=x)$ $Y$ $X$ $x$ $X$ $Y$ ${\mathcal {X}}$ ${\mathcal {Y}}$ $Y$ $p_{Y}{(y)}$ $Y$ $\mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]$

\mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}=-\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},

ここで、は値を取った場合の結果の情報量です。値を取ることを条件とするのエントロピーは次のように定義されます。 $\operatorname {I} (y_{i})$ $Y$ $y_{i}$ $Y$ $X$ $x$

\mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2}{\Pr(Y=y|X=x)}}.

は、取り得るすべての値を平均した結果であることに注意してください。また、上記の和をサンプルについてとった場合、期待値はいくつかの分野で次のように知られています。 $\mathrm {H} (Y|X)$ $\mathrm {H} (Y|X=x)$ $x$ $X$ $y_{1},\dots ,y_{n}$ $E_{X}[\mathrm {H} (y_{1},\dots ,y_{n}\mid X=x)]$ 二重表現^[2]

イメージとイメージの離散確率変数が与えられたとき、の条件付きエントロピーはの各可能な値に対するの重み付き和として定義され、重みとしてが使用される。^[3]^{: 15} $X$ ${\mathcal {X}}$ $Y$ ${\mathcal {Y}}$ $Y$ $X$ $\mathrm {H} (Y|X=x)$ $x$ $p(x)$

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}\,p(x)p(y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log _{2}{\frac {p(x,y)}{p(x)}}.\end{aligned}}

プロパティ

条件付きエントロピーはゼロ

\mathrm {H} (Y|X)=0

の値がの値によって完全に決定される場合のみです。

Y

X

独立確率変数の条件付きエントロピー

逆に、とが独立した確率変数である場合に限ります。 $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ $Y$ $X$

チェーンルール

2つの確率変数とによって決定される複合システムが結合エントロピーを持つと仮定します。つまり、その正確な状態を記述するには平均でビットの情報が必要です。ここで、の値を最初に知れば、ビットの情報が得られます。が分かれば、システム全体の状態を記述するために必要なのはビットだけです。この量はと正確に等しく、条件付きエントロピーの連鎖律を与えます。 $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X,Y)$ $X$ $\mathrm {H} (X)$ $X$ $\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (Y|X)$

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).

^[3]^{: 17}

条件付きエントロピーの上記の定義から、連鎖律が次のように導かれます。

{\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}

一般に、複数のランダム変数に対する連鎖律は次のようになります。

\mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})

^[3]^{: 22}

確率論における連鎖律と似た形式ですが、乗算ではなく加算が使われます。

ベイズの定理

条件付きエントロピー状態に関するベイズの定理

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).

証明。 そして。対称性は必然的に成り立つ。2つの方程式を引き算するとベイズの定理が導かれる。 $\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)$ $\mathrm {H} (X,Y)=\mathrm {H} (Y,X)$

が与えられたものと条件付きで独立している場合、次の式が得られます。 $Y$ $Z$ $X$

\mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).

その他の特性

任意のおよびについて: $X$ $Y$

{\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}

ここで、との間の相互情報量です。 $\operatorname {I} (X;Y)$ $X$ $Y$

独立系および： $X$ $Y$

\mathrm {H} (Y|X)=\mathrm {H} (Y)

そして

\mathrm {H} (X|Y)=\mathrm {H} (X)\,

特定の条件付きエントロピーは、の与えられたランダム変量に対してより小さくなることもあればより大きくなることもありますが、を超えることはありません。 $\mathrm {H} (X|Y=y)$ $\mathrm {H} (X)$ $y$ $Y$ $\mathrm {H} (X|Y)$ $\mathrm {H} (X)$

条件付き微分エントロピー

意味

上記の定義は離散確率変数に対するものです。離散条件付きエントロピーの連続版は、条件付き微分（または連続）エントロピーと呼ばれます。とを、結合確率密度関数を持つ連続確率変数とします。微分条件付きエントロピーは^[3]で定義されます^：249 $X$ $Y$ $f(x,y)$ $h(X|Y)$

h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy

。

プロパティ

離散確率変数の条件付きエントロピーとは対照的に、条件付き微分エントロピーは負になる可能性があります。

離散的な場合と同様に、微分エントロピーには連鎖律があります。

h(Y|X)\,=\,h(X,Y)-h(X)

^[3]^{: 253}

ただし、関係する微分エントロピーが存在しないか無限である場合は、この規則は当てはまらない可能性があることに注意してください。

結合微分エントロピーは、連続確率変数間の相互情報量の定義にも使用されます。

\operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)

h(X|Y)\leq h(X)

が独立である場合に限り、等式となる。^[3]^{: 253}

X

Y

推定誤差との関係

条件付き微分エントロピーは、推定値の期待二乗誤差の下限値を与える。任意のガウス分布の確率変数、観測値、推定値に対して、以下の式が成り立つ：^[3]^{: 255} $X$ $Y$ ${\widehat {X}}$

\mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}

これは量子力学の不確定性原理に関連しています。

量子論への一般化

量子情報理論において、条件付きエントロピーは条件付き量子エントロピーへと一般化されます。後者は、古典的なエントロピーとは異なり、負の値を取ることができます。

参照

参考文献

^ 「David MacKay: 情報理論、パターン認識、ニューラルネットワーク：書籍」www.inference.org.uk . 2019年10月25日閲覧。
^ Hellman, M.; Raviv, J. (1970). 「誤り確率、同義性、そしてチェルノフ限界」. IEEE Transactions on Information Theory . 16 (4): 368– 372. CiteSeerX 10.1.1.131.2865 . doi :10.1109/TIT.1970.1054466.
^ abcdefg T. Cover ; J. Thomas (1991). 『情報理論の要素』Wiley. ISBN 0-471-06259-6。

[1] 「David MacKay: 情報理論、パターン認識、ニューラルネットワーク：書籍」www.inference.org.uk . 2019年10月25日閲覧。

[2] Hellman, M.; Raviv, J. (1970). 「誤り確率、同義性、そしてチェルノフ限界」. IEEE Transactions on Information Theory . 16 (4): 368– 372. CiteSeerX 10.1.1.131.2865 . doi :10.1109/TIT.1970.1054466.

[cover1991-3] T. Cover ; J. Thomas (1991). 『情報理論の要素』Wiley. ISBN 0-471-06259-6。