Statistical regression where the dependent variable can take only two values
統計学 において 、 プロビットモデル とは、従属 変数が 2つの値(例えば、既婚か未婚か)しか取れない 回帰分析 の一種です。この言葉は「 確率 (probability )」と「単位 (unit )」 を組み合わせた 造語 です。 [1]このモデルの目的は、特定の特性を持つ観測値が特定のカテゴリに分類される確率を推定することです。さらに、予測される確率に基づいて観測値を分類することは、 2値分類 モデルの一種です 。
プロビット モデルは、 2値応答モデル の一般的な仕様です。そのため、 ロジスティック回帰 と同様の手法を用いて、同じ問題群を扱います。 一般化線型モデルの 枠組みで見ると 、プロビットモデルは プロビット リンク関数 を採用しています。 [2] 最も一般的に推定されるのは最尤法であり 、 [ 3] このような推定は プロビット回帰 と呼ばれます。
概念フレームワーク 応答変数 Y が 2値、つまり1と0の 2つの結果 しか取り得ないと仮定する 。例えば、 Y は 特定の条件の有無、何らかの装置の成功/失敗、アンケートへの回答の「はい/いいえ」などを表す。また、 回帰変数のベクトル X があり、これが結果 Y に影響を与えると想定される。具体的には、モデルは次のような形式をとると仮定する。
P ( Y = 1 ∣ X ) = Φ ( X T β ) , {\displaystyle P(Y=1\mid X)=\Phi (X^{\operatorname {T} }\beta ),} ここで、 P は 確率 、は 標準正規分布 の累積分布関数( CDF )です 。パラメータ βは通常、 最尤法 によって推定されます 。 Φ {\displaystyle \Phi }
プロビットモデルを 潜在変数モデル として動機付けることが可能である。補助確率変数が存在すると仮定する。
Y ∗ = X T β + ε , {\displaystyle Y^{\ast }=X^{T}\beta +\varepsilon ,} ここで ε ~ N (0, 1) である。Y は この潜在変数が正であるかどうかを示す指標として捉えることができる。
Y = { 1 Y ∗ > 0 0 otherwise } = { 1 X T β + ε > 0 0 otherwise } {\displaystyle Y=\left.{\begin{cases}1&Y^{*}>0\\0&{\text{otherwise}}\end{cases}}\right\}=\left.{\begin{cases}1&X^{\operatorname {T} }\beta +\varepsilon >0\\0&{\text{otherwise}}\end{cases}}\right\}} 標準正規分布を使用すると、任意の平均と標準偏差を持つ正規分布を使用する場合と比べて 一般性が失われる ことはありません。これは、平均に一定量を追加することは、切片から同じ量を減算することで補正でき、標準偏差に一定量を乗算することは、重みに同じ量を乗算することで補正できるためです。
2つのモデルが同等であることを確認するには、次の点に注意してください。
P ( Y = 1 ∣ X ) = P ( Y ∗ > 0 ) = P ( X T β + ε > 0 ) = P ( ε > − X T β ) = P ( ε < X T β ) by symmetry of the normal distribution = Φ ( X T β ) {\displaystyle {\begin{aligned}P(Y=1\mid X)&=P(Y^{\ast }>0)\\&=P(X^{\operatorname {T} }\beta +\varepsilon >0)\\&=P(\varepsilon >-X^{\operatorname {T} }\beta )\\&=P(\varepsilon <X^{\operatorname {T} }\beta )&{\text{by symmetry of the normal distribution}}\\&=\Phi (X^{\operatorname {T} }\beta )\end{aligned}}}
モデル推定
最大尤度推定 データ セットに 上記のモデルに対応する n 個 の独立した 統計単位 が含まれているとします。 { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}
単一の観測については、その観測の入力のベクトルを条件として、次のようになります。
P ( y i = 1 | x i ) = Φ ( x i T β ) {\displaystyle P(y_{i}=1|x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )} P ( y i = 0 | x i ) = 1 − Φ ( x i T β ) {\displaystyle P(y_{i}=0|x_{i})=1-\Phi (x_{i}^{\operatorname {T} }\beta )} ここで 、は入力のベクトル 、は係数のベクトル です 。 x i {\displaystyle x_{i}} K × 1 {\displaystyle K\times 1} β {\displaystyle \beta } K × 1 {\displaystyle K\times 1}
単一の観測の確率 は ( y i , x i ) {\displaystyle (y_{i},x_{i})}
L ( β ; y i , x i ) = Φ ( x i T β ) y i [ 1 − Φ ( x i T β ) ] ( 1 − y i ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )^{y_{i}}[1-\Phi (x_{i}^{\operatorname {T} }\beta )]^{(1-y_{i})}} 実際、 の場合は となり 、 の場合は と なります 。 y i = 1 {\displaystyle y_{i}=1} L ( β ; y i , x i ) = Φ ( x i T β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )} y i = 0 {\displaystyle y_{i}=0} L ( β ; y i , x i ) = 1 − Φ ( x i T β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}^{\operatorname {T} }\beta )}
観測値は独立しており、同一に分布しているので、サンプル全体の尤度、つまり 結合尤度は 、個々の観測値の尤度の積に等しくなります。
L ( β ; Y , X ) = ∏ i = 1 n ( Φ ( x i T β ) y i [ 1 − Φ ( x i T β ) ] ( 1 − y i ) ) {\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}^{\operatorname {T} }\beta )^{y_{i}}[1-\Phi (x_{i}^{\operatorname {T} }\beta )]^{(1-y_{i})}\right)} 結合対数尤度関数は、
ln L ( β ; Y , X ) = ∑ i = 1 n ( y i ln Φ ( x i T β ) + ( 1 − y i ) ln ( 1 − Φ ( x i T β ) ) ) {\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}^{\operatorname {T} }\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}^{\operatorname {T} }\beta ){\big )}{\bigg )}} この関数を最大化する 推定量は、 が存在し、かつ が特異でない場合、 整合的 で、漸近的に正規で、 効率的である 。この対数尤度関数は において大域的に 凹で あることが示されており、したがって標準的な最適化数値アルゴリズムは、唯一の最大値へと急速に収束する。 β ^ {\displaystyle {\hat {\beta }}} E [ X X T ] {\displaystyle \operatorname {E} [XX^{\operatorname {T} }]} β {\displaystyle \beta }
の 漸近分布 は次のように与えられる。 β ^ {\displaystyle {\hat {\beta }}}
n ( β ^ − β ) → d N ( 0 , Ω − 1 ) , {\displaystyle {\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),} どこ
Ω = E [ φ 2 ( X T β ) Φ ( X T β ) ( 1 − Φ ( X T β ) ) X X T ] , Ω ^ = 1 n ∑ i = 1 n φ 2 ( x i T β ^ ) Φ ( x i T β ^ ) ( 1 − Φ ( x i T β ^ ) ) x i x i T , {\displaystyle \Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X^{\operatorname {T} }\beta )}{\Phi (X^{\operatorname {T} }\beta )(1-\Phi (X^{\operatorname {T} }\beta ))}}XX^{\operatorname {T} }{\bigg ]},\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x_{i}^{\operatorname {T} }{\hat {\beta }})}{\Phi (x_{i}^{\operatorname {T} }{\hat {\beta }})(1-\Phi (x_{i}^{\operatorname {T} }{\hat {\beta }}))}}x_{i}x_{i}^{\operatorname {T} },} [ 要引用 ] これは 標準正規分布の 確率密度関数 ( PDF ) です。 φ = Φ ′ {\displaystyle \varphi =\Phi '}
プロビット型やその他の関連モデルのためのセミパラメトリックおよびノンパラメトリック最大尤度法も利用可能である。 [4]
バークソンの最小カイ二乗法 この手法は、回帰変数ベクトルの値が同じ 応答変数の観測値が多数ある場合にのみ適用できます (このような状況は「セルあたり多数の観測値」と呼ばれます)。より具体的には、モデルは以下のように定式化できます。 y i {\displaystyle y_{i}} x i {\displaystyle x_{i}}
n 個の 観測値 のうち 、回帰変数の異なる値が T 個しか存在しないと仮定します 。これらの値は となります。 となる観測値の個数を 、 となる観測値の個数を とします 。各「セル」には、実際には「多数」の観測値が存在すると仮定します。各 について、 となります 。 { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}} { x ( 1 ) , … , x ( T ) } {\displaystyle \{x_{(1)},\ldots ,x_{(T)}\}} n t {\displaystyle n_{t}} x i = x ( t ) , {\displaystyle x_{i}=x_{(t)},} r t {\displaystyle r_{t}} y i = 1 {\displaystyle y_{i}=1} t , lim n → ∞ n t / n = c t > 0 {\displaystyle t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0}
示す
p ^ t = r t / n t {\displaystyle {\hat {p}}_{t}=r_{t}/n_{t}} σ ^ t 2 = 1 n t p ^ t ( 1 − p ^ t ) φ 2 ( Φ − 1 ( p ^ t ) ) {\displaystyle {\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}} そして、 バークソンの最小カイ二乗 推定量は、 重み を持つ の 回帰における 一般化最小二乗 推定量である。 Φ − 1 ( p ^ t ) {\displaystyle \Phi ^{-1}({\hat {p}}_{t})} x ( t ) {\displaystyle x_{(t)}} σ ^ t − 2 {\displaystyle {\hat {\sigma }}_{t}^{-2}}
β ^ = ( ∑ t = 1 T σ ^ t − 2 x ( t ) x ( t ) T ) − 1 ∑ t = 1 T σ ^ t − 2 x ( t ) Φ − 1 ( p ^ t ) {\displaystyle {\hat {\beta }}={\Bigg (}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}x_{(t)}^{\operatorname {T} }{\Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})} この推定量は( n →∞かつ T が固定の条件で)整合的であり、漸近的に正規分布的かつ効率的である ことが示される。 [ 要出典 ] この推定量の利点は、閉形式の式が存在することである。しかし、この分析を実行することが意味を持つのは、個々の観測値が利用できず、それらの集計されたカウント、、およびのみ利用できる場合のみである ( 例えば 、投票行動の分析)。 r t {\displaystyle r_{t}} n t {\displaystyle n_{t}} x ( t ) {\displaystyle x_{(t)}}
アルバートとチブ・ギブスのサンプリング法 プロビットモデルの ギブスサンプリングは、正規分布する潜在変数 z を導入することで可能となる。これらの変数は、正であれば1、そうでなければ0として観測される。このアプローチはAlbertとChib (1993) [5] で導入され、ベイズ統計の枠組みにおいて、ギブスサンプリングを2値および多値応答モデルに適用する方法を示した。重みに多変量正規 事前分布を 仮定すると、このモデルは次のように記述できる。
β ∼ N ( b 0 , B 0 ) z i ∣ x i , β ∼ N ( x i T β , 1 ) y i = { 1 if z i > 0 0 otherwise {\displaystyle {\begin{aligned}{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\\[3pt]z_{i}\mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)\\[3pt]y_{i}&={\begin{cases}1&{\text{if }}z_{i}>0\\0&{\text{otherwise}}\end{cases}}\end{aligned}}} このことから、アルバートとチブ(1993) [5] は、ギブスサンプリングアルゴリズムにおける次の完全条件付き分布を導出している。
B = ( B 0 − 1 + X T X ) − 1 β ∣ z ∼ N ( B ( B 0 − 1 b 0 + X T z ) , B ) z i ∣ y i = 0 , x i , β ∼ N ( x i T β , 1 ) [ z i ≤ 0 ] z i ∣ y i = 1 , x i , β ∼ N ( x i T β , 1 ) [ z i > 0 ] {\displaystyle {\begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} ^{\operatorname {T} }\mathbf {X} )^{-1}\\[3pt]{\boldsymbol {\beta }}\mid \mathbf {z} &\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} ^{\operatorname {T} }\mathbf {z} ),\mathbf {B} )\\[3pt]z_{i}\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)[z_{i}\leq 0]\\[3pt]z_{i}\mid y_{i}=1,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)[z_{i}>0]\end{aligned}}} の結果は ベイズ線形回帰 に関する論文で示されています が、表記法は異なります。一方、潜在変数の条件付き事後分布は、与えられた範囲内で 切断正規分布 に従います。表記法 は アイバーソン括弧 で、場合によっては または類似の表記法で表されます。したがって、観測された結果に関する知識は、潜在変数の支持を限定するのに役立ちます。 β {\displaystyle {\boldsymbol {\beta }}} [ z i < 0 ] {\displaystyle [z_{i}<0]} I ( z i < 0 ) {\displaystyle {\mathcal {I}}(z_{i}<0)}
多変量正規分布から潜在ベクトルを与えられた 重みをサンプリングするのは標準的な方法です。切り捨て正規事後分布から潜在変数をサンプリングするには、以下の Rの ベクトル化関数に実装されている逆CDF法を利用することができ 、これによりこの手法の実装が容易になります。 β {\displaystyle {\boldsymbol {\beta }}} z {\displaystyle \mathbf {z} }
zbinprobit <- function ( y , X , beta , n ) { meanv <- X %*% beta u <- runif ( n ) # uniform(0,1) ランダム変数 cd <- pnorm ( - meanv ) # 累積正規CDF pu <- ( u * cd ) * ( 1 - 2 * y ) + ( u + cd ) * y cpui <- qnorm ( pu ) # 逆正規CDF z <- meanv + cpui # 潜在ベクトル return ( z ) }
モデル評価 推定二値モデルの適合性は、真の観測値が1となる観測値の数と、モデルが正しい予測分類を割り当てる0となる観測値の数を数えることで評価できます。この場合、推定確率が1/2を超える(または1/2を下回る)場合は、予測値が1(または0)であるとみなします。 詳細については、 ロジスティック回帰の「モデル」を参照してください。
プロビットモデルの潜在変数モデル定式化について考えてみましょう。の 条件付き の 分散 が一定ではなく に依存する場合 、不 均一分散の 問題が生じます。例えば、 と を仮定します。 ここで は 連続した正の説明変数です。不均一分散の下では、 のプロビット推定値は 通常矛盾しており、係数に関するほとんどの検定は無効です。さらに重要なのは、 の推定値も 矛盾することです。この問題に対処するには、元のモデルを等分散に変換する必要があります。例えば、同じ例で、 は と書き直すことができます。 ここで です 。したがって、 と を にプロビットすると、 条件付き確率 の矛盾のない推定値が生成されます。 ε {\displaystyle \varepsilon } x {\displaystyle x} x {\displaystyle x} y ∗ = β 0 + B 1 x 1 + ε {\displaystyle y^{*}=\beta _{0}+B_{1}x_{1}+\varepsilon } ε ∣ x ∼ N ( 0 , x 1 2 ) {\displaystyle \varepsilon \mid x\sim N(0,x_{1}^{2})} x 1 {\displaystyle x_{1}} β {\displaystyle \beta } P ( y = 1 ∣ x ) {\displaystyle P(y=1\mid x)} 1 [ β 0 + β 1 x 1 + ε > 0 ] {\displaystyle 1[\beta _{0}+\beta _{1}x_{1}+\varepsilon >0]} 1 [ β 0 / x 1 + β 1 + ε / x 1 > 0 ] {\displaystyle 1[\beta _{0}/x_{1}+\beta _{1}+\varepsilon /x_{1}>0]} ε / x 1 ∣ x ∼ N ( 0 , 1 ) {\displaystyle \varepsilon /x_{1}\mid x\sim N(0,1)} P ( y = 1 ∣ x ) = Φ ( β 1 + β 0 / x 1 ) {\displaystyle P(y=1\mid x)=\Phi (\beta _{1}+\beta _{0}/x_{1})} ( 1 , 1 / x 1 ) {\displaystyle (1,1/x_{1})} P ( y = 1 ∣ x ) . {\displaystyle P(y=1\mid x).}
正規分布するという仮定 が成り立たない場合、関数形式の 誤指定という 問題が生じる。つまり、モデルをプロビットモデルとして推定した場合、係数の推定値 は矛盾する。例えば、真のモデルでは ロジスティック分布 に従うが、プロビットモデルで推定した場合、推定値は一般に真の値よりも小さくなる。しかし、部分効果の推定値 は 真のロジットモデルによる推定値に近い ため、係数推定値の矛盾は実質的に問題にならない。 [6] ε {\displaystyle \varepsilon } β {\displaystyle \beta } ε {\displaystyle \varepsilon } ∂ P ( y = 1 ∣ x ) / ∂ x i ′ {\displaystyle \partial P(y=1\mid x)/\partial x_{i'}}
分布の誤指定の問題を回避するために、誤差項に一般的な分布の仮定を採用し、モデルに様々な種類の分布を含めることができるようにすることが考えられる。その代償として、パラメータ数の増加に伴う計算負荷の増加と精度の低下が挙げられます。 [7] 実際には、分布形式が誤って指定されているケースの大半において、係数の推定値は不一致となるものの、条件付き確率と部分効果の推定値は依然として非常に良好である。 [ 要出典 ]
また、半パラメトリックまたは非パラメトリックなアプローチ、例えば局所尤度法や非パラメトリック 準尤度 法などを用いることもできる。これらの方法は、指標関数のパラメトリック形式に関する仮定を回避し、リンク関数(例えば、プロビットまたはロジット)の選択に対して堅牢である。 [4]
歴史 プロビットモデルは、 1934年に「プロビット」という用語を造語した チェスター・ブリス [8] と 、それ以前の研究を体系化した ジョン・ガダム(1933年) グスタフ・フェヒナー が『フェヒナー』(1860年)で発表した ウェーバー・フェヒナーの法則 に遡り 、1930年代まで繰り返し再発見された。フィニー(1971年、第3章6節)およびエイチソン&ブラウン(1957年、第1章2節)を参照。
プロビットモデルの 最大尤度 推定値を計算する高速な方法は、 1935年にブリスの研究の付録として ロナルド・フィッシャーによって提案された 。[10]
参照
参考文献 ^ Oxford English Dictionary , 3rd ed. sv probit (2007年6月の記事): Bliss, CI (1934). "The Method of Probits". Science . 79 (2037): 38– 39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. PMID 17813446. これらの任意の確率単位は「プロビット」と呼ばれています。 ^ アグレスティ、アラン (2015). 線形モデルと一般化線形モデルの基礎 . ニューヨーク: ワイリー. pp. 183– 186. ISBN 978-1-118-73003-4 。 ^ アルドリッチ, ジョン・H.; ネルソン, フォレスト・D.; アドラー, E. スコット (1984). 線形確率モデル、ロジットモデル、プロビットモデル. Sage. pp. 48– 65. ISBN 0-8039-2133-0 。 ^ ab Park, Byeong U.; Simar, Léopold; Zelenyuk, Valentin (2017). 「時系列データに対する動的離散選択モデルのノンパラメトリック推定」 (PDF) . 計算統計とデータ分析 . 108 : 97–120 . doi :10.1016/j.csda.2016.10.024. ^ ab Albert, J., & Chib, S. (1993). 「二値および多値応答データのベイズ分析」アメリカ統計学会誌、88(422), 669-679. ^ Greene, WH (2003)、「計量経済分析」、Prentice Hall、アッパーサドルリバー、ニュージャージー州。 ^ 詳細については、Cappé, O.、Moulines, E.、Ryden, T. (2005):「Inference in Hidden Markov Models」、Springer-Verlag New York、第 2 章を参照してください。 ^ Bliss, CI (1934). 「プロビット法」. Science . 79 (2037): 38– 39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. PMID 17813446. ^ Fisher, RA (1935). 「プロビットアッセイにおける生存者ゼロの事例」 Annals of Applied Biology . 22 : 164– 165. doi :10.1111/j.1744-7348.1935.tb07713.x. 2014年4月30日時点の オリジナル よりアーカイブ 。 エイチソン、ジョン、ブラウン、ジェームズ・アラン・カルバート (1957). 『対数正規分布:経済学におけるその応用を中心に』 大学出版局. ISBN 978-0-521-04011-2 。 Cramer, JS (2002). ロジスティック回帰の起源 (PDF) (技術レポート). 第119巻. ティンバーゲン研究所. pp. 167– 178. doi :10.2139/ssrn.360300. 掲載誌: Cramer, JS (2004). 「ロジットモデルの初期の起源」. 『科学史・哲学研究』第C部:生物・生物医学史・哲学研究 . 35 (4): 613– 626. doi :10.1016/j.shpsc.2004.09.003. フェヒナー、グスタフ・テオドール (1860)。 Elemente der Psychophysik [ 精神物理学の要素 ]。 Vol.バンド2。ライプツィヒ:ブライトコプフ・ウント・ヘルテル。 Finney, DJ (1971). プロビット分析 .
さらに読む
外部リンク