Quantity derived from the probability of a particular event occurring from a random variable
情報理論 において 、 情報量 、 自己情報量 、 驚き 情報量、あるいは シャノン情報量とは、 確率変数 から 特定の 事象が発生する 確率 から導かれる基本量である。これは オッズ や 対数オッズ と同様に確率を表現する別の方法と考えることができる が、情報理論の文脈においては特に数学的な利点を持つ。
シャノン情報量は、特定の結果の「驚き」のレベルを定量化するものとして解釈できます。これは非常に基本的な量であるため、確率変数の最適な情報源符号 化 を前提として、イベントを伝達するために必要なメッセージの長さなど、他の様々な状況にも現れます。
シャノン情報量は エントロピー と密接に関連しています。エントロピーは、ランダム変数の自己情報量の期待値であり、ランダム変数が「平均的に」どれほど驚くべきものであるかを定量化します。これは、観測者がランダム変数を測定する際に得られると期待される自己情報量の平均値です。 [1]
情報の内容はさまざまな 情報単位 で表現できますが、以下で説明するように、最も一般的なのは「ビット」(正式には シャノン と呼ばれます)です。
「困惑度」という用語は、一連の予測されるイベントに内在する不確実性を定量化するために言語モデルで使用されています。 [ 要出典 ]
意味 クロード・シャノン の自己情報の定義は、いくつかの 公理 を満たすように選択されました。
確率が 100% のイベントはまったく驚くべきことではなく、何の情報も得られません。 出来事が起こる可能性が低いほど、その出来事はより驚くべきものであり、より多くの情報をもたらします。 2 つの独立したイベントが個別に測定された場合、情報の総量は個々のイベントの自己情報の合計になります。 詳細な導出は以下で行いますが、乗法的なスケーリング係数を除けば、これら3つの公理を満たす唯一の確率関数が存在することが示せます。一般的に、実数 と 確率 の 事象 が与えられた場合、情報量は負の 対数確率 として定義されます。 基数は 上記のスケーリング係数に対応します。b の異なる選択は、 異なる 情報単位に対応します。 の場合 、単位は シャノン (記号 Sh )で、しばしば「ビット」と呼ばれます。 の場合 、単位は 自然情報単位 (記号 nat )です。 の場合 、単位は ハートレー (記号 Hart )です。 b > 1 {\displaystyle b>1} x {\displaystyle x} P {\displaystyle P} I ( x ) := − log b [ Pr ( x ) ] = − log b ( P ) . {\displaystyle \mathrm {I} (x):=-\log _{b}{\left[\Pr {\left(x\right)}\right]}=-\log _{b}{\left(P\right)}.} b {\displaystyle b} b = 2 {\displaystyle b=2} b = e {\displaystyle b=e} b = 10 {\displaystyle b=10}
正式には、確率質量関数 を持つ 離散確率変数が与えられた場合、 結果 として 測定することの自己情報量は 次のように定義されます。 [2] 上記の自己情報量の 表記法は普遍的ではありません。この表記法は関連する 相互情報 量 にもしばしば使用されるため、多くの著者は エントロピーの大文字化に倣い、自己エントロピーにも 小文字を使用しています 。 X {\displaystyle X} p X ( x ) {\displaystyle p_{X}{\left(x\right)}} X {\displaystyle X} x {\displaystyle x} I X ( x ) := − log [ p X ( x ) ] = log ( 1 p X ( x ) ) . {\displaystyle \operatorname {I} _{X}(x):=-\log {\left[p_{X}{\left(x\right)}\right]}=\log {\left({\frac {1}{p_{X}{\left(x\right)}}}\right)}.} I X ( x ) {\displaystyle I_{X}(x)} I ( X ; Y ) {\displaystyle I(X;Y)} h X ( x ) {\displaystyle h_{X}(x)} H ( X ) {\displaystyle H(X)}
プロパティ
確率の単調減少関数 与えられた 確率空間において、より稀な 事象 の測定は 直感的に「驚くべき」ものであり、より「一般的な」事象よりも多くの情報量をもたらす。したがって、自己情報量は確率の 厳密に減少する単調関数 、あるいは「反調関数」と呼ばれることもある。 [3]
標準確率は区間 内の実数で表されますが、自己情報値は 区間 内の 非負の 拡張実数 です。具体的には、 [ 0 , 1 ] {\displaystyle [0,1]} [ 0 , ∞ ] {\displaystyle [0,\infty ]}
確率 の事象 (ある事象)には、 の情報量があります 。その発生は全く驚くべきことではなく、新たな情報も明らかにしません。 Pr ( x ) = 1 {\displaystyle \Pr(x)=1} I ( x ) = − log b ( 1 ) = 0 {\displaystyle \mathrm {I} (x)=-\log _{b}(1)=0} 確率 の事象 (あり得ない事象)は の情報量 を持ち、これは定義されていないが、 慣例的 に とみなされる 。これは、あり得ないと考えられている事象を観察することは、無限に驚くべきことであるということを反映している。 [4] Pr ( x ) = 0 {\displaystyle \Pr(x)=0} I ( x ) = − log b ( 0 ) {\displaystyle \mathrm {I} (x)=-\log _{b}(0)} ∞ {\displaystyle \infty } この単調な関係は、情報量を不確実性の尺度として用いる上で基本的なものです。例えば、100万分の1の確率で当選する宝くじが当選したことを知ることは、当選しなかったことを知るよりもはるかに多くの情報を提供します( 宝くじ数学 も参照)。これはまた、統計的分散 などの概念との直感的なつながりを確立します 。つまり、平均や典型的な結果から大きく離れた事象(したがって、多くの一般的な分布では確率が低い)は、高い自己情報量を持つということです。
対数オッズとの関係 シャノン情報量は 対数オッズ と密接に関連しています。確率 の 事象 の対数オッズは、 オッズ の対数として定義されます 。 これは、2つの情報量値の差として表すことができます。 ここで は 事象 ではなく を表します。 x {\displaystyle x} p ( x ) {\displaystyle p(x)} p ( x ) 1 − p ( x ) {\displaystyle {\frac {p(x)}{1-p(x)}}} log-odds ( x ) = log b ( p ( x ) 1 − p ( x ) ) = log b ( p ( x ) ) − log b ( 1 − p ( x ) ) = I ( ¬ x ) − I ( x ) , {\displaystyle {\displaystyle {\begin{aligned}{\text{log-odds}}(x)&=\ \log _{b}\left({\frac {p(x)}{1-p(x)}}\right)\\&=\ \log _{b}(p(x))-\log _{b}(1-p(x))\\&=\ \ \mathrm {I} (\lnot x)\ -\ \mathrm {I} (x),\end{aligned}}}} ¬ x {\displaystyle \lnot x} x {\displaystyle x}
この表現は、出来事が起こらなかっ たことを知ることで得られた情報量(または驚き)から、出来事が起こったことを知ることで得られた情報を差し引いたものと解釈できます 。 この関連性は、 対数オッズが ロジット 関数や ロジスティック回帰の中核となる 統計モデリング において特に重要です 。 [5]
独立事象の加法性 2つの独立した事象 の情報量は 、各事象の情報量の合計です。この性質は 数学では 加法性として知られています。 確率質量関数 と を持つ2つの 独立した確率変数 とを考えます 。 結果を観測する 結合確率は、 独立性 により、個々の確率の積で与えられます 。 この結合事象の情報量は次のとおりです。 この加法性により、情報量は多くの応用において確率よりも数学的に便利な尺度となります。例えば、 符号理論 では、独立した記号の列を記述するために必要な情報量は、各記号に必要な情報量の合計です。 [3] X {\displaystyle X} Y {\displaystyle Y} p X ( x ) {\displaystyle p_{X}(x)} p Y ( y ) {\displaystyle p_{Y}(y)} ( x , y ) {\displaystyle (x,y)} p X , Y ( x , y ) = Pr ( X = x , Y = y ) = p X ( x ) p Y ( y ) {\displaystyle p_{X,Y}(x,y)=\Pr(X=x,Y=y)=p_{X}(x)\ p_{Y}(y)} I X , Y ( x , y ) = − log b [ p X , Y ( x , y ) ] = − log b [ p X ( x ) p Y ( y ) ] = − log b [ p X ( x ) ] − log b [ p Y ( y ) ] = I X ( x ) + I Y ( y ) , {\displaystyle {\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}(x,y)&=\ -\log _{b}\left[p{X,Y}(x,y)\right]\\&=\ -\log _{b}\left[p_{X}(x)\ p_{Y}(y)\right]\\&=\ -\log _{b}\left[p_{X}(x)\right]\ -\ \log _{b}\left[p_{Y}(y)\right]\ \\&=\ \ \operatorname {I} _{X}(x)\ +\ \operatorname {I} _{Y}(y),\end{aligned}}}}
尤度 における対応する性質は、独立事象の 対数尤度 は各事象の対数尤度の合計であるというものです 。対数尤度を「支持」または負の驚き(事象が特定のモデルを支持する度合い。あるモデルは、その事象がモデルを与えられた場合に驚くべきものではない程度に、ある事象によって支持される)と解釈すると、これは独立事象が支持を付加することを意味します。つまり、2つの事象が 統計的推論 のために提供する情報は、それらの独立情報の合計です。
エントロピーとの関係 確率変数の シャノン エントロピーは 次のように定義され ます 。 定義により、 測定の 期待 情報量に等しい。 [6] : 11 [7] : 19–20 X {\displaystyle X} H ( X ) = ∑ x − p X ( x ) log p X ( x ) = ∑ x p X ( x ) I X ( x ) = d e f E [ I X ( X ) ] , {\displaystyle {\displaystyle {\begin{aligned}\mathrm {H} (X)\ &=\ \sum _{x}{-p_{X}{\left(x\right)}\ \log {p_{X}{\left(x\right)}}}\\&=\ \sum _{x}{p_{X}{\left(x\right)}\ \operatorname {I} _{X}(x)}\ \ {\overset {\underset {\mathrm {def} }{}}{=}}\ \ \operatorname {E} {\left[\operatorname {I} _{X}(X)\right]},\end{aligned}}}} X {\displaystyle X}
期待値は、 その サポート上の 離散値 にわたって取得されます。
エントロピー自体はランダム変数の「自己情報量」と呼ばれることもあります。これはおそらく、エントロピーが ( はそれ 自身 と の 相互 情報量)を満たすためです。 [8] H ( X ) = I ( X ; X ) {\displaystyle \mathrm {H} (X)=\operatorname {I} (X;X)} I ( X ; X ) {\displaystyle \operatorname {I} (X;X)} X {\displaystyle X}
連続ランダム変数 の場合、 対応する概念は 微分エントロピー です。
注記 この尺度は、結果を見ることの「 驚き 」を表すため、 意外性(surprisal )とも呼ばれる(非常にあり得ない結果は非常に意外である)。この用語(対数確率尺度として)は、エドワード・W・サムソンが1951年の報告書「情報理論の基礎自然概念」で導入した。 [9] [10] 物理学文献への初期の登場は、 マイロン・トリバス の1961年の著書『 サーモスタティックスとサーモダイナミクス』 である。 [11] [12]
イベントが(変数の)ランダム実現である場合、変数の自己情報は 実現の自己情報の 期待値として定義されます。 [ 引用が必要 ]
例
公平なコイントス 公平なコインを投げる ベルヌーイ 試行 を 考えてみましょう 。 コインが表 と裏に なる 確率 ( 公平なコイン と 表裏を 参照)は それぞれ 半分ずつ です。 変数を表と 測定し た場合、関連する情報利得は1シャノンです。したがって、公平なコインが表になった場合の情報利得は1 シャノン です。 [2] 同様に、裏になった場合の情報利得 は X {\displaystyle X} H {\displaystyle {\text{H}}} T {\displaystyle {\text{T}}} p X ( H ) = p X ( T ) = 1 2 = 0.5 {\textstyle p_{X}{({\text{H}})}=p_{X}{({\text{T}})}={\tfrac {1}{2}}=0.5} I X ( H ) = − log 2 p X ( H ) = − log 2 1 2 = 1 , {\displaystyle \operatorname {I} _{X}({\text{H}})=-\log _{2}{p_{X}{({\text{H}})}}=-\log _{2}\!{\tfrac {1}{2}}=1,} T {\displaystyle T} I X ( T ) = − log 2 p X ( T ) = − log 2 1 2 = 1 Sh . {\displaystyle \operatorname {I} _{X}(T)=-\log _{2}{p_{X}{({\text{T}})}}=-\log _{2}{\tfrac {1}{2}}=1{\text{ Sh}}.}
公正なサイコロの振り 公平な6面サイコロ があるとします 。サイコロの目は、 確率質量関数 を持つ 離散一様確率変数 です。4が出る確率は 、他の有効なサイコロの目と同様に です。したがって、4が出ることによる情報量は です 。 X ∼ D U [ 1 , 6 ] {\displaystyle X\sim \mathrm {DU} [1,6]} p X ( k ) = { 1 6 , k ∈ { 1 , 2 , 3 , 4 , 5 , 6 } 0 , otherwise {\displaystyle p_{X}(k)={\begin{cases}{\frac {1}{6}},&k\in \{1,2,3,4,5,6\}\\0,&{\text{otherwise}}\end{cases}}} p X ( 4 ) = 1 6 {\textstyle p_{X}(4)={\frac {1}{6}}} I X ( 4 ) = − log 2 p X ( 4 ) = − log 2 1 6 ≈ 2.585 Sh {\displaystyle \operatorname {I} _{X}(4)=-\log _{2}{p_{X}{(4)}}=-\log _{2}{\tfrac {1}{6}}\approx 2.585\;{\text{Sh}}}
2つの独立した、同じ分布のサイコロ 2つの独立かつ同一分布に従う確率変数が あり、 それぞれが 独立した 6面サイコロの出目に対応すると仮定する。 と の 結合分布 は X , Y ∼ D U [ 1 , 6 ] {\textstyle X,\,Y\sim \mathrm {DU} [1,6]} X {\displaystyle X} Y {\displaystyle Y} p X , Y ( x , y ) = Pr ( X = x , Y = y ) = p X ( x ) p Y ( y ) = { 1 36 , x , y ∈ [ 1 , 6 ] ∩ N 0 otherwise. {\displaystyle {\begin{aligned}p_{X,Y}\!\left(x,y\right)&{}=\Pr(X=x,\,Y=y)=p_{X}\!(x)\,p_{Y}\!(y)\\&{}={\begin{cases}\displaystyle {1 \over 36},\ &x,y\in [1,6]\cap \mathbb {N} \\0&{\text{otherwise.}}\end{cases}}\end{aligned}}}
ランダム変数 の情報量は 、 イベントの加法性によって計算することもできる。 ( X , Y ) = ( 2 , 4 ) {\displaystyle (X,Y)=(2,\,4)} I X , Y ( 2 , 4 ) = − log 2 [ p X , Y ( 2 , 4 ) ] = log 2 36 = 2 log 2 6 ≈ 5.169925 Sh , {\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}&=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=\log _{2}\!{36}=2\log _{2}\!{6}\\&\approx 5.169925{\text{ Sh}},\end{aligned}}} I X , Y ( 2 , 4 ) = − log 2 [ p X , Y ( 2 , 4 ) ] = − log 2 [ p X ( 2 ) ] − log 2 [ p Y ( 4 ) ] = 2 log 2 6 ≈ 5.169925 Sh . {\displaystyle {\begin{aligned}\operatorname {I} _{X,Y}{(2,4)}&=-\log _{2}\!{\left[p_{X,Y}{(2,4)}\right]}=-\log _{2}\!{\left[p_{X}(2)\right]}-\log _{2}\!{\left[p_{Y}(4)\right]}\\&=2\log _{2}\!{6}\\&\approx 5.169925{\text{ Sh}}.\end{aligned}}}
どのサイコロがどの値だったかは知らなくても 、サイコロの値に関する情報を受け取る場合 、いわゆる計数変数を用いてこのアプローチを形式化することができ 、 その場合 、計数は 多項分布に従う。 C k := δ k ( X ) + δ k ( Y ) = { 0 , ¬ ( X = k ∨ Y = k ) 1 , X = k ⊻ Y = k 2 , X = k ∧ Y = k {\displaystyle C_{k}:=\delta _{k}(X)+\delta _{k}(Y)={\begin{cases}0,&\neg \,(X=k\vee Y=k)\\1,&\quad X=k\,\veebar \,Y=k\\2,&\quad X=k\,\wedge \,Y=k\end{cases}}} k ∈ { 1 , 2 , 3 , 4 , 5 , 6 } {\displaystyle k\in \{1,2,3,4,5,6\}} ∑ k = 1 6 C k = 2 {\textstyle \sum _{k=1}^{6}{C_{k}}=2} f ( c 1 , … , c 6 ) = Pr ( C 1 = c 1 and … and C 6 = c 6 ) = { 1 18 1 c 1 ! ⋯ c k ! , when ∑ i = 1 6 c i = 2 0 otherwise, = { 1 18 , when 2 c k are 1 1 36 , when exactly one c k = 2 0 , otherwise. {\displaystyle {\begin{aligned}f(c_{1},\ldots ,c_{6})&{}=\Pr(C_{1}=c_{1}{\text{ and }}\dots {\text{ and }}C_{6}=c_{6})\\&{}={\begin{cases}{\displaystyle {1 \over {18}}{1 \over c_{1}!\cdots c_{k}!}},\ &{\text{when }}\sum _{i=1}^{6}c_{i}=2\\0&{\text{otherwise,}}\end{cases}}\\&{}={\begin{cases}{1 \over 18},\ &{\text{when 2 }}c_{k}{\text{ are }}1\\{1 \over 36},\ &{\text{when exactly one }}c_{k}=2\\0,\ &{\text{otherwise.}}\end{cases}}\end{aligned}}}
これを検証するために、6つの結果は イベントに対応しており 、 合計確率 は ( X , Y ) ∈ { ( k , k ) } k = 1 6 = { ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 3 ) , ( 4 , 4 ) , ( 5 , 5 ) , ( 6 , 6 ) } {\textstyle (X,Y)\in \left\{(k,k)\right\}_{k=1}^{6}=\left\{(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)\right\}} C k = 2 {\displaystyle C_{k}=2} 1 / 6 。これらは、どのサイコロがどの出目を出したかが忠実に保持される唯一の事象です。なぜなら、出目が同じだからです。他の目を出すサイコロを区別する知識がなければ、他の 組み合わせ は、一方のサイコロがある目、もう一方のサイコロが異なる目を出すことに相当し、それぞれ確率が ( 6 2 ) = 15 {\textstyle {\binom {6}{2}}=15} 1 / 18 . 確かに 、必要に応じて。 6 ⋅ 1 36 + 15 ⋅ 1 18 = 1 {\textstyle 6\cdot {\tfrac {1}{36}}+15\cdot {\tfrac {1}{18}}=1}
当然のことながら、両方のサイコロが同じ特定の目だったことを知ることの情報量は、一方のサイコロが特定の目、もう一方のサイコロが別の目だったことを知ることの情報量よりも大きい。 例えば、の事象 と を考えてみましょ う 。 A k = { ( X , Y ) = ( k , k ) } {\displaystyle A_{k}=\{(X,Y)=(k,k)\}} B j , k = { c j = 1 } ∩ { c k = 1 } {\displaystyle B_{j,k}=\{c_{j}=1\}\cap \{c_{k}=1\}} j ≠ k , 1 ≤ j , k ≤ 6 {\displaystyle j\neq k,1\leq j,k\leq 6} A 2 = { X = 2 and Y = 2 } {\displaystyle A_{2}=\{X=2{\text{ and }}Y=2\}} B 3 , 4 = { ( 3 , 4 ) , ( 4 , 3 ) } {\displaystyle B_{3,4}=\{(3,4),(4,3)\}}
情報内容は I ( A 2 ) = − log 2 1 36 = 5.169925 Sh {\displaystyle \operatorname {I} (A_{2})=-\log _{2}\!{\tfrac {1}{36}}=5.169925{\text{ Sh}}} I ( B 3 , 4 ) = − log 2 1 18 = 4.169925 Sh {\displaystyle \operatorname {I} \left(B_{3,4}\right)=-\log _{2}\!{\tfrac {1}{18}}=4.169925{\text{ Sh}}}
両方のサイコロが同じ目を出すという事象を とし、 両方のサイコロが異なる目を出すという事象を とする。このとき、 と となる 。事象の情報内容は以下の通りである。 Same = ⋃ i = 1 6 A i {\textstyle {\text{Same}}=\bigcup _{i=1}^{6}{A_{i}}} Diff = Same ¯ {\displaystyle {\text{Diff}}={\overline {\text{Same}}}} Pr ( Same ) = 1 6 {\textstyle \Pr({\text{Same}})={\tfrac {1}{6}}} Pr ( Diff ) = 5 6 {\textstyle \Pr({\text{Diff}})={\tfrac {5}{6}}} I ( Same ) = − log 2 1 6 = 2.5849625 Sh {\displaystyle \operatorname {I} ({\text{Same}})=-\log _{2}\!{\tfrac {1}{6}}=2.5849625{\text{ Sh}}} I ( Diff ) = − log 2 5 6 = 0.2630344 Sh . {\displaystyle \operatorname {I} ({\text{Diff}})=-\log _{2}\!{\tfrac {5}{6}}=0.2630344{\text{ Sh}}.}
2つの独立した確率変数の和 の確率質量関数または密度関数(総称して 確率測度 )は 、各確率測度 の畳み込みである 。独立した公平な6面サイコロを振る場合、確率変数は 確率質量関数 を持つ 。ここで は 離散畳み込み を表す 。 結果の 確率は である 。したがって、主張される情報は Z = X + Y {\displaystyle Z=X+Y} p Z ( z ) = p X ( x ) ∗ p Y ( y ) = 6 − | z − 7 | 36 {\textstyle p_{Z}(z)=p_{X}(x)*p_{Y}(y)={6-|z-7| \over 36}} ∗ {\displaystyle *} Z = 5 {\displaystyle Z=5} p Z ( 5 ) = 4 36 = 1 9 {\textstyle p_{Z}(5)={\frac {4}{36}}={1 \over 9}} I Z ( 5 ) = − log 2 1 9 = log 2 9 ≈ 3.169925 Sh . {\displaystyle \operatorname {I} _{Z}(5)=-\log _{2}{\tfrac {1}{9}}=\log _{2}{9}\approx 3.169925{\text{ Sh}}.}
上記の§ 公平なサイコロ投げの例を一般化して、一般的な 離散一様確率変数 (DURV)を考えます。 便宜上、 と定義します 。 確率質量関数 は 一般に、DURVの値は 整数で ある必要はなく、情報理論の目的のために一様間隔である必要もありません。等確率 であれば 十分 です。 [2] 任意の観測の情報ゲイン は X ∼ D U [ a , b ] ; a , b ∈ Z , b ≥ a . {\displaystyle X\sim \mathrm {DU} [a,b];\quad a,b\in \mathbb {Z} ,\ b\geq a.} N := b − a + 1 {\textstyle N:=b-a+1} p X ( k ) = { 1 N , k ∈ [ a , b ] ∩ Z 0 , otherwise . {\displaystyle p_{X}(k)={\begin{cases}{\frac {1}{N}},&k\in [a,b]\cap \mathbb {Z} \\0,&{\text{otherwise}}.\end{cases}}} X = k {\displaystyle X=k} I X ( k ) = − log 2 1 N = log 2 N Sh . {\displaystyle \operatorname {I} _{X}(k)=-\log _{2}{\frac {1}{N}}=\log _{2}{N}{\text{ Sh}}.}
特殊なケース: 定数確率変数 上式の場合 、は 確率分布が決定論的に で与えられる 定数確率変数 に 退化し 、確率測度は ディラック測度 となる。取り得る 値は 決定論的に のみ であるため、 のあらゆる測定の情報量は となる。 一般に、既知の値を測定しても得られる情報は存在しない。 [2] b = a {\displaystyle b=a} X {\displaystyle X} X = b {\displaystyle X=b} p X ( k ) = δ b ( k ) {\textstyle p_{X}(k)=\delta _{b}(k)} X {\displaystyle X} b {\displaystyle b} X {\displaystyle X} I X ( b ) = − log 2 1 = 0. {\displaystyle \operatorname {I} _{X}(b)=-\log _{2}{1}=0.}
カテゴリ分布 上記のすべてのケースを一般化して、 サポート と 確率質量関数 を持つ カテゴリ カル 離散確率変数を考えます。 S = { s i } i = 1 N {\textstyle {\mathcal {S}}={\bigl \{}s_{i}{\bigr \}}_{i=1}^{N}}
p X ( k ) = { p i , k = s i ∈ S 0 , otherwise . {\displaystyle p_{X}(k)={\begin{cases}p_{i},&k=s_{i}\in {\mathcal {S}}\\0,&{\text{otherwise}}.\end{cases}}}
情報理論の目的において、値は 数値 である必要はなく 、 確率測度 に 正規化さ れた 有限測度 の 測度空間 上の、 互いに排他的な任意の 事象 とすることができる。 一般性を失うことなく、 カテゴリ分布は 集合 上で支持されると 仮定することができる 。この 数学的構造は 確率論 、ひいては 情報理論 において も 同型である 。 s ∈ S {\displaystyle s\in {\mathcal {S}}} p {\displaystyle p} [ N ] = { 1 , 2 , … , N } {\textstyle [N]=\left\{1,2,\dots ,N\right\}}
結果の情報 が提供される X = x {\displaystyle X=x}
I X ( x ) = − log 2 p X ( x ) . {\displaystyle \operatorname {I} _{X}(x)=-\log _{2}{p_{X}(x)}.}
これらの例から、既知の 分布を持つ任意の 独立 DRV セットの情報を 加法 によって計算することが可能です 。
導出 定義上、情報は、情報を有する発信主体から受信主体へ伝達されるのは、受信者が事前にその情報を知らなかった場合に限られます 。 受信主体がメッセージを受信する前にメッセージの内容を既に確実に知っていた場合、受信メッセージの情報量はゼロです。受信者がメッセージの内容について事前に100%未満の確信度しか持っていない場合にのみ、メッセージは実際に情報を伝達します。
たとえば、コメディアンの ジョージ・カーリン のキャラクター(ヒッピー・ディッピー・ウェザーマン)を引用すると、
今夜の天気予報:暗い。 一 晩中暗く、朝には広く明るくなる。 [13]
極地の 近くに住んでいないと仮定すると 、その予報で伝えられる情報量はゼロです。なぜなら、予報を受け取る前に、夜には必ず暗くなることが分かっているからです。
したがって、イベント の発生を伝えるメッセージに含まれる 自己情報量の量は 、 そのイベントの 確率にのみ依存します。 何らかの関数 が決定される必要があります。 の場合 、 です 。 の場合 、 です 。 I {\displaystyle \operatorname {I} } ω n {\displaystyle \omega _{n}} Pr ( ω n ) {\displaystyle \Pr(\omega _{n})} I ( ω n ) = f ( Pr ( ω n ) ) , {\displaystyle \operatorname {I} (\omega _{n})=f(\Pr(\omega _{n})),} f {\displaystyle f} Pr ( ω n ) = 1 {\displaystyle \Pr(\omega _{n})=1} I ( ω n ) = 0 {\displaystyle \operatorname {I} (\omega _{n})=0} Pr ( ω n ) < 1 {\displaystyle \Pr(\omega _{n})<1} I ( ω n ) > 0 {\displaystyle \operatorname {I} (\omega _{n})>0}
さらに、定義により、 自己情報量の 尺度は 非負かつ加法的です。 イベントが2 つの 独立した イベントと の 積で ある場合 、イベント 発生 の情報は、個々のイベント と の情報量の 合計 です。 イベントと は独立しているため 、 イベント の確率は次 のとおりです。 確率を関数に関連付けると 、次のようになります。 これは 関数方程式 です。この特性を持つ 連続関数は、 対数 関数だけです。したがって、 は、 何らかの底 および定数に対して 、次の形式である必要があります 。 低確率のイベントは高い情報量に対応する必要があるため、定数 は 負である必要があります。 対数の 底にスケーリングを書き込んで吸収することができます。これにより、最終的な形式が得られます。 イベント の確率が小さいほど 、イベントが実際に発生したというメッセージに関連付けられた自己情報量が大きくなります。 上記の対数が底 2 の場合、 の単位は shannon です 。これは最も一般的な方法です。 を底とする 自然対数 を使用する場合、単位は nat になります。 10 を底とする対数の場合、情報の単位は ハートレー です。 C {\displaystyle C} A {\displaystyle A} B {\displaystyle B} C {\displaystyle C} A {\displaystyle A} B {\displaystyle B} I ( C ) = I ( A ∩ B ) = I ( A ) + I ( B ) . {\displaystyle \operatorname {I} (C)=\operatorname {I} (A\cap B)=\operatorname {I} (A)+\operatorname {I} (B).} A {\displaystyle A} B {\displaystyle B} C {\displaystyle C} Pr ( C ) = Pr ( A ∩ B ) = Pr ( A ) ⋅ Pr ( B ) . {\displaystyle \Pr(C)=\Pr(A\cap B)=\Pr(A)\cdot \Pr(B).} f {\displaystyle f} f ( Pr ( A ) ⋅ Pr ( B ) ) = f ( Pr ( A ) ) + f ( Pr ( B ) ) . {\displaystyle f(\Pr(A)\cdot \Pr(B))=f(\Pr(A))+f(\Pr(B)).} f {\displaystyle f} f ( p ) {\displaystyle f(p)} f ( p ) = K log b ( p ) , {\displaystyle f(p)=K\log _{b}(p),} b {\displaystyle b} K {\displaystyle K} K {\displaystyle K} K = − 1 {\displaystyle K=-1} b {\displaystyle b} I ( ω n ) = − log b ( Pr ( ω n ) ) = log b ( 1 Pr ( ω n ) ) . {\displaystyle \operatorname {I} (\omega _{n})=-\log _{b}(\Pr(\omega _{n}))=\log _{b}\left({\frac {1}{\Pr(\omega _{n})}}\right).} ω n {\displaystyle \omega _{n}} I ( ω n ) {\displaystyle I(\omega _{n})} e {\displaystyle e}
簡単に説明すると、コインを4回連続で投げて4回表(または特定の結果)が出る場合の情報量は4シャノン(確率1/16)で、指定された結果以外の結果が出る場合の情報量は シャノンです。詳細な例については上記を参照してください。 − log 2 ( 15 / 16 ) ≈ 0.09 {\displaystyle -\log _{2}(15/16)\approx 0.09}
参照
参考文献 ^ ジョーンズ、DS、 「初等情報理論」 、第巻、クラレンドンプレス、オックスフォード、pp 11–15 1979 ^ abcd McMahon, David M. (2008). 『量子コンピューティングの解説 』 ホーボーケン, ニュージャージー州: Wiley-Interscience. ISBN 9780470181386 . OCLC 608622533。 ^ ab Cover, TM; Thomas, JA (2006). 『情報理論の要素』 (第2版). Wiley-Interscience. p. 20. ISBN 978-0471241959 。 ^ MacKay, David JC (2003). 情報理論、推論、学習アルゴリズム. ケンブリッジ大学出版局. p. 32. ISBN 978-0521642989 。 ^ ビショップ、クリストファー・M. (2006). パターン認識と機械学習 . シュプリンガー. p. 205. ISBN 978-0387310732 。 ^ ボルダ、モニカ(2011年)『情報理論と符号化の基礎』シュプリンガー、 ISBN 978-3-642-20346-6 。 ^ ハン・テ・サン; 小林金吾 (2002). 情報数学と符号化. アメリカ数学会. ISBN 978-0-8218-4256-0 。 ^ Thomas M. Cover、Joy A. Thomas; 情報理論の要素; p. 20; 1991年。 ^ サムソン、エドワード・W. (1953) [1951年10月、空軍ケンブリッジ研究所技術報告書E5079として初版]。[[疑わしいリンクを削除]「情報理論の基礎的自然概念」]。ETC : 一般意味論レビュー 。10 ( 4 、1953年夏、情報理論特集号): 283– 297。JSTOR 42581366 。 ^ アトニーヴ、フレッド(1959年)『 情報理論の心理学への応用:基本概念、方法、結果の要約』 (第1版)ニューヨーク:ホルト、ライナーハート、ウィンストン。 ^ Bernstein, RB; Levine, RD (1972). 「エントロピーと化学変化.I. 反応性分子衝突における生成物(および反応物)のエネルギー分布の特性評価:情報とエントロピー不足」 . The Journal of Chemical Physics . 57 (1): 434– 449. Bibcode :1972JChPh..57..434B. doi :10.1063/1.1677983. ^ Myron Tribus (1961) 「熱力学とサーモスタティックス: エネルギー、情報、物質の状態への入門、工学的応用」 (D. Van Nostrand、24 West 40 Street、New York 18、ニューヨーク、USA)Tribus、Myron(1961)、pp. 64〜66 借用。 ^ 「ジョージ・カーリンの言葉」 www.goodreads.com . 2021年4月1日 閲覧 。
さらに読む
外部リンク