Method of statistical analysis
ベイズ線形回帰は条件付きモデリングの一種で、1つの変数の平均が他の変数の線形結合によって記述され、回帰係数(および回帰対象の分布を記述する他のパラメータ)の事後確率を取得し、最終的に回帰変数(多くの場合 とラベル付けされる)のサンプル外予測を、回帰変数(通常は )の観測値を条件として可能にすることを目的としています。このモデルの最も単純かつ広く使用されているバージョンは正規線形モデルで、ここではガウス分布 が与えられています。このモデルでは、パラメータの事前確率(いわゆる共役事前分布)を特定の選択の下で、事後分布を解析的に求めることができます。より任意に選択された事前分布を使用する場合、事後分布は通常、近似値で計算する必要があります。



モデルのセットアップ
標準的な線形回帰問題を考えてみましょう。ここでは、予測ベクトルが与えられた場合の条件付き分布の平均を指定します。




ここではベクトルであり、は独立かつ同一に正規分布する確率変数です。


これは次の尤度関数に対応します。

通常の最小二乗解は、ムーア・ペンローズ擬似逆行列を用いて係数ベクトルを推定するために使用される。
ここで、 は設計行列で、各行は予測ベクトルです。 は列ベクトルです。



![{\displaystyle [y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
これは頻度主義的なアプローチであり、 について意味のあることを述べるのに十分な測定値があると仮定します。ベイズ的アプローチ[1]では、データに事前確率分布という形で追加情報が補完されます。パラメータに関する事前確信は、ベイズの定理に従ってデータの尤度関数と組み合わされ、パラメータとに関する事後確信が得られます。事前確信は、ドメインと事前に利用可能な情報に応じて、異なる関数形式をとることができます。


データは との両方から構成されるため、を条件とするの分布のみに焦点を当てるには、その正当性が必要です。実際、「完全な」ベイズ分析には、の分布のパラメータを表す事前分布 とともに、結合尤度 が必要になります。(弱い)外生性の仮定の下でのみ、結合尤度を に組み込むことができます。[2]後者の部分は、パラメータセットが互いに素であるという仮定の下では通常無視されます。さらに、古典的な仮定の下では、は選択された(例えば、計画された実験において)とみなされ、したがってパラメータなしで既知の確率を持ちます。[3]









共役事前分布の場合
共役事前分布
任意の事前分布に対して、事後分布の解析解が存在しない場合があります。このセクションでは、事後分布を解析的に導出できる、いわゆる共役事前分布について考察します。
事前分布がこの尤度関数と共役であるとは、それがおよびに関して同じ関数形を持つ場合である。対数尤度は において2次関数であるため、対数尤度は において尤度が正規分布になるように書き直される。




![{\displaystyle {\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _{=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
尤度は次のように書き換えられます。ここで、は回帰係数の数です。


これは事前分布の形を示唆している:ここで逆ガンマ分布


逆ガンマ分布の記事で導入された表記法では、これはとの事前値としてそれぞれとを持つ分布の密度である。同様に、これはスケール逆カイ二乗分布とも記述できる。







さらに条件付き事前密度は正規分布であり、

正規分布の表記法では、条件付き事前分布は
事後分布
事前分布が指定されているので、事後分布は次のように表すことができます。

いくつかの整理を加えると、[4]の事後分布は書き直すことができ、パラメータベクトルの事後平均は最小二乗推定値と事前平均で表すことができ、事前分布の強さは事前精度行列によって示される。





が事後平均であることを正当化するために、指数関数の2次項は2次形式として再構成することができる。[5]


事後分布は正規分布と逆ガンマ分布の積として表現できます。

したがって、事後分布は次のようにパラメータ化できる。ここで、2つの因子は分布の密度と分布に対応し、これらのパラメータは次のように与えられる。




これは、ベイズ推論が事前情報とサンプル情報の間の妥協であることを示しています。
モデル証拠
モデルの証拠と は、モデル が与えられた場合のデータの確率です。これは周辺尤度、および事前予測密度とも呼ばれます。ここで、モデルは尤度関数とパラメータの事前分布、つまりによって定義されます。モデルの証拠は、そのようなモデルが観測結果をどの程度よく説明するかを単一の数値で表します。このセクションで紹介するベイズ線形回帰モデルのモデルの証拠は、ベイズ係数によって競合する線形モデルを比較するために使用できます。これらのモデルは、予測変数の数と値、およびモデルパラメータの事前分布が異なる場合があります。モデルの複雑さは、モデルの証拠によって既に考慮されています。これは、およびのすべての可能な値にわたって積分することによりパラメータを周辺化するためです。この積分は解析的に計算でき、解は次の式で与えられます。[6]








ここで はガンマ関数を表します。共役事前分布を選択したため、任意の値と に対して次の等式を評価することで、周辺尤度も簡単に計算できます。[ 7]この式はベイズの定理を整理したものに従うことに注意してください。事前分布、尤度、事後分布の式を挿入し、得られた式を簡略化すると、上記に示した解析式が得られます。



その他の事例
一般に、事後分布を解析的に導出することは不可能あるいは非現実的である。しかし、モンテカルロサンプリング、[8] INLA 、変分ベイズなどの近似ベイズ推論法によって事後分布を近似することは可能である。
この特殊なケースはリッジ回帰と呼ばれます。
多変量回帰の一般的なケースでも同様の分析を実行でき、その一部では共分散行列のベイズ推定が提供されます。ベイズ多変量線形回帰を参照してください。
参照
注記
- ^ Huang, Yunfei; Gompper, Gerhard; Sabass, Benedikt (2020). 「ユーザーフレンドリーなソフトウェアパッケージで自動ノイズ除去機能を備えたベイズ牽引力顕微鏡法」Computer Physics Communications . 256 107313. arXiv : 2005.01377 . Bibcode :2020CoPhC.25607313H. doi :10.1016/j.cpc.2020.107313.
- ^ Jackman(2009)101ページを参照。
- ^ Gelman et al. (2013)、354ページを参照。
- ^ この計算の中間ステップについては、O'Hagan (1994) の「線形モデル」の章の冒頭に記載されています。
- ^ 中間ステップについてはFahrmeir et al. (2009)の188ページに記載されています。
- ^ この計算の中間ステップについては、O'Hagan (1994) の 257 ページを参照してください。
- ^ チブ、シッダールタ (1995). 「ギブス出力からの周辺尤度」.アメリカ統計学会誌. 90 (432): 1313– 1321. doi :10.2307/2291521.
- ^ Carlin and Louis (2008) と Gelman, et al. (2003) は、ベイズ線形回帰におけるサンプリング手法の使用方法を説明しています。
参考文献
外部リンク