最大エントロピーの原理

最大エントロピーの原理は、システムに関する現在の知識の状態を最もよく表す確率分布は、正確に述べられた事前データ(検証可能な情報を表す命題など)のコンテキストにおいて、エントロピーが最大となる確率分布であると述べています。

これを別の言い方で述べると、確率分布関数に関する、正確に示された事前データまたは検証可能な情報を取ります。事前データを符号化するすべての試行確率分布の集合を考えます。この原理によれば、情報エントロピーが最大となる分布が最良の選択となります。

歴史

この原理は、1957年にE.T.ジェインズによって2つの論文[ 1 ] [ 2 ]で初めて解説され、統計力学情報理論の自然な対応関係を強調しました。特にジェインズは、統計力学のエントロピー情報理論情報エントロピーは同一の概念であると主張し、統計力学におけるギブス的手法の妥当性を主張しました。したがって、統計力学は、論理的推論と情報理論の一般的なツールの特定の応用として捉えるべきです。

概要

実際のほとんどのケースでは、明示された事前データまたは検証可能な情報は、問題の確率分布に関連付けられた一連の保存量(いくつかのモーメント関数の平均値)によって与えられます。これは、統計熱力学において最大エントロピー原理が最も頻繁に用いられる方法です。もう一つの可能​​性は、確率分布のいくつかの対称性を規定することです。保存量と対応する対称群の同値性は、最大エントロピー法において検証可能な情報を規定するこれら2つの方法にも同様の同値性があることを意味します。

最大エントロピー原理は、さまざまな方法、特に 統計力学論理的推論によって得られた確率の割り当ての一意性と一貫性を保証するためにも必要です。

最大エントロピー原理は、様々な形式の事前データを用いる自由を明確に示しています。特別なケースとして、一様事前確率密度(ラプラスの無差別原理、不十分理由原理と呼ばれることもあります)を採用することも可能です。このように、最大​​エントロピー原理は、古典統計における通常の推論手法に対する単なる別の見方ではなく、それらの手法の重要な概念的一般化を表しています。

しかし、これらの記述は、統計的集団として扱うことを正当化するために熱力学系がエルゴード的であることを示す必要がないことを意味するものではない。

通常の言語で言えば、最大エントロピー原理は、認識論的謙虚さ、あるいは最大の無知を主張していると言える。選択される分布とは、提示された事前データを超えて情報を得ているという主張が最も少なく、言い換えれば、提示された事前データを超えて最も無知を許容する分布である。

テスト可能な情報

最大エントロピーの原理は、検証可能な情報に適用された場合にのみ明示的に有用である。検証可能な情報とは、真偽が明確に定義された確率分布に関する記述である。例えば、以下の記述は

変数の期待値は2.87である

そして

(ここで、 とは事象の確率) は検証可能な情報の記述です。

検証可能な情報が与えられた場合、最大エントロピー法は、情報の制約条件の下で、情報エントロピーを最大化する確率分布を求めることからなる。この制約付き最適化問題は、通常、ラグランジュ乗数法を用いて解かれる。[ 3 ]

検証可能な情報がない場合のエントロピー最大化は、確率の和が1であるという普遍的な「制約」を遵守します。この制約の下では、最大エントロピー離散確率分布は一様分布です。

アプリケーション

最大エントロピーの原理は、推論問題に一般的に 2 つの方法で適用されます。

事前確率

最大エントロピー原理は、ベイズ推論における事前確率分布を得るためにしばしば用いられる。ジェインズはこのアプローチの強力な支持者であり、最大エントロピー分布は最も情報量の少ない分布を表すと主張した。[ 4 ]現在、最大エントロピー事前分布の導出と通信路符号化 との関連については、膨大な文献が発表されている。[ 5 ] [ 6 ] [ 7 ] [ 8 ]

事後確率

最大エントロピーは、根源的確率論の十分な更新規則である。リチャード・ジェフリー確率運動学は、最大エントロピー推論の特殊なケースである。しかし、最大エントロピーは、そのような十分な更新規則すべてを一般化するものではない。[ 9 ]

最大エントロピーモデル

あるいは、この原理はモデルの仕様策定にもよく用いられます。この場合、観測データ自体が検証可能な情報であると仮定されます。このようなモデルは自然言語処理において広く用いられています。このようなモデルの例としては、ロジスティック回帰が挙げられます。これは、独立観測に対する最大エントロピー分類器に相当します。

最大エントロピー原理は経済学や資源配分にも応用されています。例えば、ボルツマン公平分配モデルは、最大エントロピー(ボルツマン)分布を用いて個人間の資源や所得を配分し、分配的正義への確率論的アプローチを提供しています。[ 10 ]

確率密度推定

最大エントロピー原理の主な応用の一つは、離散密度推定と連続密度推定である。[ 11 ] [ 12 ]サポートベクターマシン推定器 と同様に、最大エントロピー原理は二次計画問題の解を必要とする場合があり、最適な密度推定器として疎混合モデルを提供する。この手法の重要な利点の一つは、密度推定に事前情報を組み込むことができることである。[ 13 ]

線形制約付き最大エントロピー分布の一般解

離散的なケース

我々は、{ x 1 , x 2 ,..., x n }の範囲の値をとる量xに関する検証可能な情報Iを持っている。この情報は、関数f kの期待値に対するm個の制約条件の形をとると仮定する。つまり、確率分布はモーメント不等式制約/等式制約を満たす必要がある。

ここで、観測可能な値である。また、確率密度の和が1になることも要求する。これは恒等関数に対する原始的な制約とみなすことができ、観測可能な値が1であることは制約を与える。

これらの不等式/等式制約の下で最大情報エントロピーを持つ確率分布は次の形式となる:[ 11 ]

何らかの に対して となる。これはギブス分布と呼ばれることもある。正規化定数は次のように決定される。

は慣例的に分割関数と呼ばれます。(ピットマン・クープマンの定理によれば、標本分布が制限された次元の十分な統計量を許容するための必要十分条件は、最大エントロピー分布の一般形を持つことである。)

λ kパラメータはラグランジュ乗数である。等式制約の場合、その値は非線形方程式の解から決定される

不等式制約の場合、ラグランジュ乗数は線形制約付きの凸最適化プログラムの解から決定される。[ 11 ]どちらの場合も閉じた形の解は 存在せず、ラグランジュ乗数の計算には通常 数値手法が必要となる。

連続ケース

連続分布の場合、シャノンエントロピーは離散確率空間に対してのみ定義されているため、用いることができません。代わりに、エドウィン・ジェインズ(1963, 1968, 2003) は、相対エントロピーと密接に関連する以下の式を与えました(微分エントロピーも参照)。

ここで、ジェインズが「不変測度」と呼んだq ( x ) は、離散点の極限密度に比例する。ここではq が既知であると仮定するが、解方程式が与えられた後にさらに議論する。

密接に関連する量である相対エントロピーは、通常、pqカルバック・ライブラー距離として定義されます(ただし、混乱を招くように、この差として定義される場合もあります)。カルバックによって提唱された、この差を最小化する推論原理は、最小識別情報原理として知られています。

実数のある区間(以下の積分はすべてこの区間上に存在する)に値をとる量xに関する検証可能な情報Iがある。この情報は関数f kの期待値に対するm個の制約条件の形をとると仮定する。つまり、確率密度関数が不等式(あるいは純粋に等式)モーメント制約を満たすことを要求する。

ここで、は観測可能な値である。また、確率密度が1に積分されることも要求する。これは恒等関数に対する原始的な制約とみなすことができ、観測可能な値が1であることで制約が与えられる。

これらの制約の下でH cが最大となる確率密度関数は次のようになる: [ 14 ]

分配関数は次のように決定されます

離散の場合と同様に、すべてのモーメント制約が等式である場合、パラメータの値は非線形方程式のシステムによって決定されます。

不等式モーメント制約の場合、ラグランジュ乗数は凸最適化プログラムの解から決定される。[ 12 ]

不変測度関数q ( x ) は、 x が有界区間( a , b )内のみの値を取ることが分かっており、他の情報は与えられていないと仮定することで最もよく理解できる。この場合、最大エントロピー確率密度関数は

ここで、Aは正規化定数である。不変測度関数は、実際には「関連情報の欠如」を表す事前密度関数である。これは最大エントロピー原理では決定できず、変換群原理周辺化理論などの他の論理的手法によって決定する必要がある。

最大エントロピー分布のいくつかの例については、最大エントロピー確率分布の記事を参照してください。

最大エントロピー原理の根拠

最大エントロピー原理の支持者は、確率の割り当てにおいてこの原理を用いることを、以下の2つの議論を含め、いくつかの方法で正当化する。これらの議論はベイズ確率の使用を所与としており、したがって同じ公理に従う。

「非情報性」の尺度としての情報エントロピー

互いに排他的な命題の間の離散確率分布を考えてみましょう。最も情報量の多い分布は、命題の1つが真であるとわかっている場合に発生します。その場合、情報エントロピーはゼロになります。最も情報量の少ない分布は、命題のいずれかを他の命題よりも優先する理由がない場合に発生します。その場合、唯一妥当な確率分布は一様であり、その場合、情報エントロピーはその最大値 に等しくなります。したがって、情報エントロピーは、特定の確率分布がどれだけ情報量が少ないかを示す数値的な尺度であり、ゼロ(完全に情報量が多い)から (全く情報量がない)までの範囲となります。

我々の情報によって許容される最大エントロピーを持つ分布を選択することは、可能な限り最も情報価値のない分布を選択することになる、という議論がある。より低いエントロピーを持つ分布を選択することは、我々が持っていない情報を仮定することになる。したがって、最大エントロピー分布こそが唯一合理的な分布である。しかしながら、解が で表される支配的な尺度に依存することは、このアプローチに対する批判の源となっている。なぜなら、この支配的な尺度は実際には恣意的であるからである。[ 15 ]

ウォリス導出

以下の議論は、1962年にグラハム・ウォリスがE.T.ジェインズに示唆した結果である。[ 16 ]これは、概念的な重点が全く異なるものの、統計力学におけるマクスウェル・ボルツマン統計に用いられる数学的議論と本質的に同じである。この議論の利点は、本質的に厳密に組み合わせ論的であり、「不確実性」や「非情報性」、あるいはその他の明確に定義されていない概念の尺度としての情報エントロピーを参照しないという点である。情報エントロピー関数は、演繹的に仮定されているのではなく、議論の過程で見出される。そして、この議論は、情報エントロピーを他の方法で扱うのではなく、情報エントロピーを最大化する手順へと自然と導く。

ある人が、互いに排他的な命題の間で確率の割り当てを行いたいとします。彼らは検証可能な情報を持っていますが、この情報を確率評価にどのように組み込むべきか確信が持てません。そこで、次のようなランダム実験を思いつきます。彼らは、確率量(それぞれ の価値)を、可能性の間にランダムに分配します。(目隠しをした状態でバケツにボールを投げ入れることを想像してみてください。できるだけ公平にするために、各投げは互いに独立しており、すべてのバケツは同じ大きさである必要があります。)実験が終わったら、得られた確率割り当てが情報と整合しているかどうかを確認します。(このステップが成功するには、情報は確率測度の空間における開集合によって与えられる制約条件でなければなりません。)もし整合していなければ、彼らはそれを却下し、再度試みます。整合していれば、彼らの評価は

ここで、 は番目の命題の確率であり、n i は番目の命題に割り当てられた量子の数(つまり、バケツに入ったボールの数)です。

さて、確率の割り当ての「粒度」を小さくするためには、かなり多くの確率量子を用いる必要がある。主人公は、かなり長いランダム実験を実際に実行し、おそらくは繰り返すよりも、単純に最も確率の高い結果を計算して用いることにする。特定の結果の確率は、多項分布に従う。

どこ

結果の多重性と呼ばれることもあります。

最も可能性の高い結果は、多重度を最大化するものである。主人公は直接最大化するのではなく、任意の単調増加関数を最大化することで同等の結果を得ることができる。彼らは最大化することにした。

この時点で、表現を簡略化するために、主人公は極限を とします。つまり、確率レベルが粗い離散値から滑らかな連続値へと変化するとき、 となります。スターリング近似を用いて、彼らは次式を得ます。

主人公に残された課題は、検証可能な情報の制約下でエントロピーを最大化することだけだ。彼らは、確率レベルが離散的から連続的へと変化する極限において、最大エントロピー分布がすべての「公平な」ランダム分布の中で最も確率が高いことを発見した。

ベイズの定理との互換性

ギフィンとカティチャ(2007)は、ベイズの定理と最大エントロピー原理は完全に両立し、「最大相対エントロピー法」の特殊なケースと見なすことができると述べています。彼らは、この方法は正統的なベイズ推論法のあらゆる側面を再現すると述べています。さらに、この新しい方法は、最大エントロピー原理や正統的なベイズ推論法のいずれの手法でも個別には解決できなかった問題への取り組みへの道を開きます。さらに、最近の研究(Lazar 2003、Schennach 2005)では、頻度主義的な相対エントロピーに基づく推論アプローチ(経験尤度指数傾斜経験尤度など。例えば、Owen 2001、Kitamura 2006を参照)を事前情報と組み合わせてベイズ事後分析を実行できることが示されています。

ジェインズは、ベイズの定理は確率を計算する方法であり、最大エントロピーは事前確率分布を割り当てる方法であると述べた。[ 17 ]

しかし、ベイズ的な考察とは無関係に、問題を形式的に制約付き最適化問題として扱い、エントロピー関数を目的関数とすることで、最小交差エントロピー原理(または最大エントロピー原理、つまり一様分布を与えられた事前分布として使用する特別なケース)を用いて、与えられた事前分布から直接事後分布を解くことは概念的には可能です。検定可能な情報として平均値が与えられた場合(求める確率分布を平均化したもの)、求める分布は正式にはギブス分布(またはボルツマン分布)であり、そのパラメータは最小交差エントロピーを達成し、与えられた検定可能な情報を満たすように解く必要があります。

物理学との関連性

最大エントロピー原理は、分子カオス、あるいはストスツァランザッツとして知られる気体運動論の重要な仮定と関連している。これは、衝突に進入する粒子を特徴付ける分布関数が因数分解できるという主張である。この主張は厳密に物理的な仮説として理解することもできるが、衝突前の粒子の最も起こりやすい配置に関する経験的仮説としても解釈できる。[ 18 ]

参照

注記

  1. ^ Jaynes, ET (1957). 「情報理論と統計力学」(PDF) . Physical Review . Series II. 106 (4): 620– 630. Bibcode : 1957PhRv..106..620J . doi : 10.1103/PhysRev.106.620 . MR  0087305 .
  2. ^ Jaynes, ET (1957). 「情報理論と統計力学 II」(PDF) . Physical Review . Series II. 108 (2): 171– 190. Bibcode : 1957PhRv..108..171J . doi : 10.1103/PhysRev.108.171 . MR 0096414 . 
  3. ^ Sivia, Devinderjit; Skilling, John (2006-06-02). 『データ分析:ベイズ流チュートリアル』 . OUP Oxford. ISBN 978-0-19-154670-9
  4. ^ Jaynes, ET (1968). 「事前確率」(PDF) . IEEE Transactions on Systems Science and Cyber​​netics . 4 (3): 227– 241. doi : 10.1109/TSSC.1968.300117 .
  5. ^ Clarke, B. (2006). 「情報最適性とベイズモデリング」. Journal of Econometrics . 138 (2): 405– 429. doi : 10.1016/j.jeconom.2006.05.003 .
  6. ^ Soofi, ES (2000). 「主要な情報理論的アプローチ」.アメリカ統計学会誌. 95 (452): 1349–1353 . doi : 10.2307/2669786 . JSTOR 2669786. MR 1825292 .  
  7. ^ Bousquet, N. (2008). 「ベイズ実験における曖昧だが適切な最大エントロピー事前分布の導出」.統計論文. 51 (3): 613– 628. doi : 10.1007/s00362-008-0149-9 . S2CID 119657859 . 
  8. ^ Palmieri, Francesco AN; Ciuonzo, Domenico (2013-04-01). 「データ分類における最大エントロピーからの客観的事前分布」. Information Fusion . 14 (2): 186– 198. CiteSeerX 10.1.1.387.4515 . doi : 10.1016/j.inffus.2012.01.012 . 
  9. ^ Skyrms, B (1987). 「更新、仮定、そしてMAXENT」.理論と意思決定. 22 (3): 225–46 . doi : 10.1007/BF00134086 . S2CID 121847242 . 
  10. ^ Park, J.-W., Kim, JU, Ghim, C.-M., & Kim, CU (2022). 分配正義のためのボルツマン公平分割.Scientific Reports , 12(1), 16179. https://doi.org/10.1038/s41598-022-19792-3 Park, J.-W., & Kim, CU (2021). 実現可能な所得平等への到達.PLOS ONE , 16(3), e0249204. https://doi.org/10.1371/journal.pone.0249204 Park, J.-W., Kim, CU, & Isard, W. (2012). ボルツマン分布を用いた排出量取引における排出権割り当て.物理学A、391、4883–4890。https ://doi.org/10.1016/j.physa.2012.05.006
  11. ^ a b c Botev, ZI; Kroese, DP (2008). 「離散データの密度推定における非漸近的帯域幅選択」応用確率論における方法論と計算. 10 (3): 435. doi : 10.1007/s11009-007-9057-z . S2CID 122047337 . 
  12. ^ a b Botev, ZI; Kroese, DP (2011). 「一般化クロスエントロピー法とその確率密度推定への応用」(PDF) .応用確率における方法論と計算. 13 (1): 1– 27. doi : 10.1007/s11009-009-9133-7 . S2CID 18155189 . 
  13. ^ Kesavan, HK; Kapur, JN (1990). 「最大エントロピーと最小交差エントロピー原理」. Fougère, PF (編).最大エントロピーとベイズ法. pp.  419–432 . doi : 10.1007/978-94-009-0683-9_29 . ISBN 978-94-010-6792-8
  14. ^ Jaynes, ET (1968). 「事前確率」 . IEEE Trans. Syst. Sci. Cyber​​n . 4 : 227–241 . doi : 10.1109/TSSC.1968.300117 .
  15. ^ Druilhet, Pierre; Marin, Jean-Michel (2007). 「不変{HPD}信用集合と{MAP}推定量」 . Bayesian Anal . 2 : 681–691 . doi : 10.1214/07-BA227 .
  16. ^ Jaynes, ET (2003)確率論:科学の論理、ケンブリッジ大学出版局、351-355ページ。ISBN 978-0521592710
  17. ^ Jaynes, ET (1988)「ベイズ法と最大エントロピー法の関係」科学と工学における最大エントロピーとベイズ法』(第1巻) Kluwer Academic Publishers、25-29ページ。
  18. ^ Chliamovitch, G.; Malaspinas, O.; Chopard, B. (2017). 「運動論:シュトスザハランザッツを超える」 .エントロピー. 19 (8): 381. Bibcode : 2017Entrp..19..381C . doi : 10.3390/e19080381 .

参考文献

さらに読む