Expected value of a random variable given that certain conditions are known to occur
確率論 において 、 条件付き期待 値、 条件付き期待値 、または 条件付き平均は、 条件付き確率分布 に基づいて評価された 確率変数 の 期待値 です。確率変数が有限個の値しか取れない場合、「条件」とは、変数がそれらの値の一部しか取れないことを指します。より正式には、確率変数が離散 確率空間 上で定義されている場合 、「条件」とは、この確率空間の 分割を 指します。
条件付き期待値は、文脈に応じて確率変数または関数のいずれかになります。確率変数は 条件付き確率 と同様に表記されます 。関数形は で表される か、 のような独立した関数記号で 表され、 の意味を持ちます 。 E ( X ∣ Y ) {\displaystyle E(X\mid Y)} E ( X ∣ Y = y ) {\displaystyle E(X\mid Y=y)} f ( y ) {\displaystyle f(y)} E ( X ∣ Y ) = f ( Y ) {\displaystyle E(X\mid Y)=f(Y)}
例
例1: サイコロを振る 公平なサイコロを振ることを考えてみましょう。出た目が 偶数(つまり2、4、または6)の場合は A = 1、そうでない場合は A = 0とします。さらに、出た 目が素数(つまり2、3、または5)の場合は B = 1、そうでない場合は B = 0とします。
A の無条件期待値は ですが、 B = 1 を 条件 とする A の期待値は (つまり、サイコロの目が 2、3、または 5 である条件)であり、 B = 0を条件とする A の期待値 は (つまり、サイコロの目が 1、4、または 6 である条件)です 。同様に、A = 1 を条件とする B の期待値は であり、 A = 0 を条件とする B の期待値は です 。 E [ A ] = ( 0 + 1 + 0 + 1 + 0 + 1 ) / 6 = 1 / 2 {\displaystyle E[A]=(0+1+0+1+0+1)/6=1/2} E [ A ∣ B = 1 ] = ( 1 + 0 + 0 ) / 3 = 1 / 3 {\displaystyle E[A\mid B=1]=(1+0+0)/3=1/3} E [ A ∣ B = 0 ] = ( 0 + 1 + 1 ) / 3 = 2 / 3 {\displaystyle E[A\mid B=0]=(0+1+1)/3=2/3} E [ B ∣ A = 1 ] = ( 1 + 0 + 0 ) / 3 = 1 / 3 {\displaystyle E[B\mid A=1]=(1+0+0)/3=1/3} E [ B ∣ A = 0 ] = ( 0 + 1 + 1 ) / 3 = 2 / 3 {\displaystyle E[B\mid A=0]=(0+1+1)/3=2/3}
例2: 降水量データ 1990 年 1 月 1 日から 1999 年 12 月 31 日までの 10 年間 (3652 日) の毎日、気象観測所で収集された毎日の降雨量データ (1 日あたりの降雨量 mm) があるとします。指定されていない日の無条件降雨量期待値は、3652 日間の降雨量の平均です。3月であることがわかっている (3 月であることを条件とする)、それ以外は指定されていない日の 条件 付き降雨量期待値は、10 年間のうち 3 月に該当する 310 日間すべての日降雨量の平均です。同様に、3 月 2 日の日付を条件とする条件付き降雨量期待値は、その特定の日付を含む 10 日間の降雨量の平均です。
歴史 条件付き確率 という関連概念は、 少なくとも条件付き分布を計算した ラプラス にまで遡ります。 1933年に アンドレイ・コルモゴロフが ラドン・ニコディム定理 を用いてこれを定式化しました。 [1] 1953年の ポール・ハルモス [2] と ジョセフ・L・ドゥーブ [3] の研究において、条件付き期待値は 部分 σ 代数 を用いて現代的な定義に一般化されました 。 [4]
定義
イベントの条件付け A が非ゼロ確率のにおける事象であり 、 Xが 離散確率変数 である 場合、 A が与えられたときの X の条件付き期待値 は F {\displaystyle {\mathcal {F}}}
E ( X ∣ A ) = ∑ x x P ( X = x ∣ A ) = ∑ x x P ( { X = x } ∩ A ) P ( A ) {\displaystyle {\begin{aligned}\operatorname {E} (X\mid A)&=\sum _{x}xP(X=x\mid A)\\&=\sum _{x}x{\frac {P(\{X=x\}\cap A)}{P(A)}}\end{aligned}}} ここで、合計は X のすべての可能な結果にわたって行われます。
の場合、 ゼロ除算の ため条件付き期待値は未定義になります 。 P ( A ) = 0 {\displaystyle P(A)=0}
離散確率変数 X と Yが 離散確率変数 である 場合、 Y が与えられたときの X の条件付き期待値 は
E ( X ∣ Y = y ) = ∑ x x P ( X = x ∣ Y = y ) = ∑ x x P ( X = x , Y = y ) P ( Y = y ) {\displaystyle {\begin{aligned}\operatorname {E} (X\mid Y=y)&=\sum _{x}xP(X=x\mid Y=y)\\&=\sum _{x}x{\frac {P(X=x,Y=y)}{P(Y=y)}}\end{aligned}}} ここで 、 は X と Y の 結合確率質量関数 です。この和は X のすべての可能な結果について求められます。 P ( X = x , Y = y ) {\displaystyle P(X=x,Y=y)}
上記のように、 の場合、式は未定義になります 。 P ( Y = y ) = 0 {\displaystyle P(Y=y)=0}
離散確率変数の条件付けは、対応するイベントの条件付けと同じです。
E ( X ∣ Y = y ) = E ( X ∣ A ) {\displaystyle \operatorname {E} (X\mid Y=y)=\operatorname {E} (X\mid A)} ここで、 A は集合です 。 { Y = y } {\displaystyle \{Y=y\}}
連続確率変数 を 連続確率変数 とし 、結合密度 の密度
と イベントが与えられた場合 の 条件付き密度 とする。 与えられた場合 の条件付き期待値 は X {\displaystyle X} Y {\displaystyle Y} f X , Y ( x , y ) , {\displaystyle f_{X,Y}(x,y),} Y {\displaystyle Y} f Y ( y ) , {\displaystyle f_{Y}(y),} f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) {\displaystyle \textstyle f_{X\mid Y}(x\mid y)={\frac {f_{X,Y}(x,y)}{f_{Y}(y)}}} X {\displaystyle X} Y = y . {\displaystyle Y=y.} X {\displaystyle X} Y = y {\displaystyle Y=y}
E ( X ∣ Y = y ) = ∫ − ∞ ∞ x f X ∣ Y ( x ∣ y ) d x = 1 f Y ( y ) ∫ − ∞ ∞ x f X , Y ( x , y ) d x . {\displaystyle {\begin{aligned}\operatorname {E} (X\mid Y=y)&=\int _{-\infty }^{\infty }xf_{X\mid Y}(x\mid y)\,\mathrm {d} x\\&={\frac {1}{f_{Y}(y)}}\int _{-\infty }^{\infty }xf_{X,Y}(x,y)\,\mathrm {d} x.\end{aligned}}} 分母がゼロの場合、式は未定義になります。
連続確率変数の条件付けは、離散確率変数の場合の 事象の条件付けとは異なります。詳細については、 「確率ゼロの事象の条件付け」を参照してください。この区別を守らないと、 ボレル=コルモゴロフのパラドックス で示されるように、矛盾した結論に至る可能性があります 。 { Y = y } {\displaystyle \{Y=y\}}
L 2 確率変数 この節におけるすべての確率変数は、すなわち 平方積分可能 であると仮定する 。条件付き期待値は、その完全な一般性において、この仮定なしに展開される。詳細は、後述の「部分σ-代数に関する条件付き期待値」を参照のこと。 しかし、この理論はより直感的であると考えられており [5] 、重要な一般化が可能である。確率変数の文脈では、条件付き期待値は 回帰と も呼ばれる 。 L 2 {\displaystyle L^{2}} L 2 {\displaystyle L^{2}} L 2 {\displaystyle L^{2}}
以下では、 確率空間を とし、 平均 、 分散 とする 。期待値は 平均二乗誤差 を最小化する 。 ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} X : Ω → R {\displaystyle X:\Omega \to \mathbb {R} } L 2 {\displaystyle L^{2}} μ X {\displaystyle \mu _{X}} σ X 2 {\displaystyle \sigma _{X}^{2}} μ X {\displaystyle \mu _{X}}
min x ∈ R E ( ( X − x ) 2 ) = E ( ( X − μ X ) 2 ) = σ X 2 . {\displaystyle \min _{x\in \mathbb {R} }\operatorname {E} \left((X-x)^{2}\right)=\operatorname {E} \left((X-\mu _{X})^{2}\right)=\sigma _{X}^{2}.} X の条件付き期待値 も同様に定義されますが、結果は単一の数値 ではなく 関数 となります 。 を ランダムベクトル とします 。条件付き期待値 は、以下の式で表される測定可能な関数です
。 μ X {\displaystyle \mu _{X}} e X ( y ) {\displaystyle e_{X}(y)} Y : Ω → R n {\displaystyle Y:\Omega \to \mathbb {R} ^{n}} e X : R n → R {\displaystyle e_{X}:\mathbb {R} ^{n}\to \mathbb {R} }
min g measurable E ( ( X − g ( Y ) ) 2 ) = E ( ( X − e X ( Y ) ) 2 ) . {\displaystyle \min _{g{\text{ measurable }}}\operatorname {E} \left((X-g(Y))^{2}\right)=\operatorname {E} \left((X-e_{X}(Y))^{2}\right).} とは異なり 、条件付き期待値 は一般に一意ではないことに注意してください。つまり、平均二乗誤差を最小化するものが複数存在する可能性があります。 μ X {\displaystyle \mu _{X}} e X {\displaystyle e_{X}}
ユニークさ 例1 : Y が常に1である定数確率変数である 場合を考えます。この場合、平均二乗誤差は次の形式の関数によって最小化されます。
e X ( y ) = { μ X if y = 1 , any number otherwise. {\displaystyle e_{X}(y)={\begin{cases}\mu _{X}&{\text{if }}y=1,\\{\text{any number}}&{\text{otherwise.}}\end{cases}}} 例2 : Y が2次元のランダムベクトル である場合を考えます 。すると、明らかに ( X , 2 X ) {\displaystyle (X,2X)}
E ( X ∣ Y ) = X {\displaystyle \operatorname {E} (X\mid Y)=X} しかし、関数的には、 または、あるいは無限に多くの他の方法で表現できます。 線型回帰 の文脈では 、この一意性の欠如は 多重共線性 と呼ばれます。 e X ( y 1 , y 2 ) = 3 y 1 − y 2 {\displaystyle e_{X}(y_{1},y_{2})=3y_{1}-y_{2}} e X ′ ( y 1 , y 2 ) = y 2 − y 1 {\displaystyle e'_{X}(y_{1},y_{2})=y_{2}-y_{1}}
条件付き期待値は、 における測度零点の集合まで一意である 。使用される測度は、 Y によって誘導される プッシュフォワード測度 である。 R n {\displaystyle \mathbb {R} ^{n}}
最初の例では、プッシュフォワード測度は1 における ディラック分布 です。2 番目の例では、これが「対角線」に集中している ため、これと交差しない集合の測度は 0 になります。 { y : y 2 = 2 y 1 } {\displaystyle \{y:y_{2}=2y_{1}\}}
存在 の最小化子の存在は 自明ではない。 min g E ( ( X − g ( Y ) ) 2 ) {\displaystyle \min _{g}\operatorname {E} \left((X-g(Y))^{2}\right)}
M := { g ( Y ) : g is measurable and E ( g ( Y ) 2 ) < ∞ } = L 2 ( Ω , σ ( Y ) ) {\displaystyle M:=\{g(Y):g{\text{ is measurable and }}\operatorname {E} (g(Y)^{2})<\infty \}=L^{2}(\Omega ,\sigma (Y))} はヒルベルト空間の閉部分空間である 。 [6] ヒルベルト射影定理 によれば 、 が最小化子となるため の 必要十分条件は、 M のすべての に対して 、 L 2 ( Ω ) {\displaystyle L^{2}(\Omega )} e X {\displaystyle e_{X}} f ( Y ) {\displaystyle f(Y)}
⟨ X − e X ( Y ) , f ( Y ) ⟩ = 0. {\displaystyle \langle X-e_{X}(Y),f(Y)\rangle =0.} 言葉で言えば、この式は 残差が Y のすべての関数の 空間 M に直交することを示しています。この直交性条件は 指示関数に適用され、以下では X と Y が 必ずしも に含まれない 場合に条件付き期待値を拡張するために用いられます 。 X − e X ( Y ) {\displaystyle X-e_{X}(Y)} f ( Y ) = 1 Y ∈ H {\displaystyle f(Y)=1_{Y\in H}} L 2 {\displaystyle L^{2}}
回帰との関連 条件付き期待値は、 解析的に計算したり補間したりすることが難しいため、 応用数学 や 統計学では近似値として扱われることが多い。 [7]
ヒルベルト部分空間
M = { g ( Y ) : E ( g ( Y ) 2 ) < ∞ } {\displaystyle M=\{g(Y):\operatorname {E} (g(Y)^{2})<\infty \}} 上記で定義した関数は、 g の関数形式を制限し 、測定可能な関数を許容しないことで、その部分集合に置き換えられます。この例としては、 g が 単関数 であること が求められる 決定木回帰 、 gが アフィン であること が求められる 線形回帰 などが挙げられます。
条件付き期待値のこれらの一般化は、多くの性質がもはや成り立たなくなるという代償を伴います。例えば、 M を Y のすべての線型関数の成す空間とし 、 を この一般化された条件付き期待値/ 射影とします。 が 定数関数 を含まない場合 、 タワーの性質は 成り立ちません。 E M {\displaystyle {\mathcal {E}}_{M}} L 2 {\displaystyle L^{2}} M {\displaystyle M} E ( E M ( X ) ) = E ( X ) {\displaystyle \operatorname {E} ({\mathcal {E}}_{M}(X))=\operatorname {E} (X)}
重要な特殊なケースとして、 X と Y が共に正規分布する場合が挙げられます。この場合、条件付き期待値は線形回帰と等価であることが示されます。
e X ( Y ) = α 0 + ∑ i α i Y i {\displaystyle e_{X}(Y)=\alpha _{0}+\sum _{i}\alpha _{i}Y_{i}} 多変量正規分布#条件付き分布 で説明されている 係数 。 { α i } i = 0.. n {\displaystyle \{\alpha _{i}\}_{i=0..n}}
サブ-に関する条件付き期待値 σ -代数 σ 代数に関する条件付き期待値 : この例では、確率空間は ルベーグ測度 を持つ [0,1] 区間です 。以下の σ 代数を定義します。 ; は 、端点が 0、1 ⁄ 4、1 ⁄ 2、3 ⁄ 4、1 である区間によって生成される σ 代数 です 。 は 、 端点 が 0、1 ⁄ 2、1 で ある区間によって生成される σ 代数 です 。 ここ で 、 条件 付き期待値は 、 実質的にσ 代数の最小集合の平均です 。 ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} A = F {\displaystyle {\mathcal {A}}={\mathcal {F}}} B {\displaystyle {\mathcal {B}}} C {\displaystyle {\mathcal {C}}} 次の点を考慮してください。
( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} は確率空間 です 。 X : Ω → R n {\displaystyle X\colon \Omega \to \mathbb {R} ^{n}} 有限の期待値を持つ確率空間上の ランダム変数 です。 H ⊆ F {\displaystyle {\mathcal {H}}\subseteq {\mathcal {F}}} は の 部分 σ 代数 である。 F {\displaystyle {\mathcal {F}}} は の部分 代数である ため 、関数 は 通常 -可測ではない。したがって 、 (ただし と は から へ の制約である) の形の積分の存在は一般には断言できない。しかし、 条件付き期待値を用いることで、 における局所平均を 復元することは可能である。 H {\displaystyle {\mathcal {H}}} σ {\displaystyle \sigma } F {\displaystyle {\mathcal {F}}} X : Ω → R n {\displaystyle X\colon \Omega \to \mathbb {R} ^{n}} H {\displaystyle {\mathcal {H}}} ∫ H X d P | H {\textstyle \int _{H}X\,dP|_{\mathcal {H}}} H ∈ H {\displaystyle H\in {\mathcal {H}}} P | H {\displaystyle P|_{\mathcal {H}}} P {\displaystyle P} H {\displaystyle {\mathcal {H}}} ∫ H X d P {\textstyle \int _{H}X\,dP} ( Ω , H , P | H ) {\displaystyle (\Omega ,{\mathcal {H}},P|_{\mathcal {H}})}
が与えられたときの X の条件 付き 期待値 は、次を満たす任意の - 測定可能な関数 です 。 H {\displaystyle {\mathcal {H}}} E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})} H {\displaystyle {\mathcal {H}}} Ω → R n {\displaystyle \Omega \to \mathbb {R} ^{n}}
∫ H E ( X ∣ H ) d P = ∫ H X d P {\displaystyle \int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P} それぞれについて 。 [8] H ∈ H {\displaystyle H\in {\mathcal {H}}}
議論で述べたように、この条件は 残差 が指標関数に直交している と言うことと同等です 。 L 2 {\displaystyle L^{2}} X − E ( X ∣ H ) {\displaystyle X-\operatorname {E} (X\mid {\mathcal {H}})} 1 H {\displaystyle 1_{H}}
⟨ X − E ( X ∣ H ) , 1 H ⟩ = 0 {\displaystyle \langle X-\operatorname {E} (X\mid {\mathcal {H}}),1_{H}\rangle =0}
存在 の存在は 、 に対するが 上の 有限測度 であり、 に関して 絶対連続で ある ことに着目することで証明できる 。 が から への自然な射影であるならば 、 は へ の 制限 で あり 、 は へ の の制限である 。さらに、 は に関して絶対連続である。 これは、条件 E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})} μ X : F ↦ ∫ F X d P {\textstyle \mu ^{X}\colon F\mapsto \int _{F}X\,\mathrm {d} P} F ∈ F {\displaystyle F\in {\mathcal {F}}} ( Ω , F ) {\displaystyle (\Omega ,{\mathcal {F}})} P {\displaystyle P} h {\displaystyle h} H {\displaystyle {\mathcal {H}}} F {\displaystyle {\mathcal {F}}} μ X ∘ h = μ X | H {\displaystyle \mu ^{X}\circ h=\mu ^{X}|_{\mathcal {H}}} μ X {\displaystyle \mu ^{X}} H {\displaystyle {\mathcal {H}}} P ∘ h = P | H {\displaystyle P\circ h=P|_{\mathcal {H}}} P {\displaystyle P} H {\displaystyle {\mathcal {H}}} μ X ∘ h {\displaystyle \mu ^{X}\circ h} P ∘ h {\displaystyle P\circ h}
P ∘ h ( H ) = 0 ⟺ P ( h ( H ) ) = 0 {\displaystyle P\circ h(H)=0\iff P(h(H))=0} 暗示する
μ X ( h ( H ) ) = 0 ⟺ μ X ∘ h ( H ) = 0. {\displaystyle \mu ^{X}(h(H))=0\iff \mu ^{X}\circ h(H)=0.} したがって、
E ( X ∣ H ) = d μ X | H d P | H = d ( μ X ∘ h ) d ( P ∘ h ) , {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})={\frac {\mathrm {d} \mu ^{X}|_{\mathcal {H}}}{\mathrm {d} P|_{\mathcal {H}}}}={\frac {\mathrm {d} (\mu ^{X}\circ h)}{\mathrm {d} (P\circ h)}},} ここで、導関数は 測度の ラドン・ニコディム導関数です。
確率変数に関する条件付き期待値 上記に加えて、
測定 可能な空間 、そして ( U , Σ ) {\displaystyle (U,\Sigma )} ランダム変数 。 Y : Ω → U {\displaystyle Y\colon \Omega \to U} Y が与えられたときの X の条件付き期待値は、 Y によって生成された σ 代数に上記の構成を適用することによって定義されます 。
E [ X ∣ Y ] := E [ X ∣ σ ( Y ) ] . {\displaystyle \operatorname {E} [X\mid Y]:=\operatorname {E} [X\mid \sigma (Y)].} ドゥーブ・ディンキンの補題 によれば、 次のような 測定可能な関数が存在する。 e X : U → R n {\displaystyle e_{X}\colon U\to \mathbb {R} ^{n}}
E [ X ∣ Y ] = e X ( Y ) . {\displaystyle \operatorname {E} [X\mid Y]=e_{X}(Y).}
議論 これは構成的な定義ではありません。条件付き期待値が満たさなければならない必須の特性が与えられているだけです。 の定義は、 事象 に対する の定義に似ているかもしれません が、これらは全く異なる対象です。前者は -測定可能な関数であり、後者は に対する の 元です 。 E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})} E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid H)} H {\displaystyle H} H {\displaystyle {\mathcal {H}}} Ω → R n {\displaystyle \Omega \to \mathbb {R} ^{n}} R n {\displaystyle \mathbb {R} ^{n}} E ( X ∣ H ) P ( H ) = ∫ H X d P = ∫ H E ( X ∣ H ) d P {\displaystyle \operatorname {E} (X\mid H)\ P(H)=\int _{H}X\,\mathrm {d} P=\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P} H ∈ H {\displaystyle H\in {\mathcal {H}}} 一意性はほぼ確実 に示されます 。つまり、同じ条件付き期待値のバージョンは、 確率がゼロのセット でのみ異なります。 多くの場合、固定された H に対してを の測度として 考えたい場合があります。 例えば、ほぼすべての H に対して が加法的であると主張することは非常に便利です。しかし、それぞれが 異なる空集合を持つ可能性がある ため、これは直ちに成り立ちません。空集合の可算和は空集合であるため、 の 可算集合 に対して、ほぼすべての H に対して加法性を維持するように、 の「バージョン」を として整列させた空集合で選択することができます。しかし、 の「機能不全の空集合」を すべての可能な に対して 整列させ 、 を に対してほぼ確実に一意な測度 (「正則確率測度」)として扱うには、さらなる正則性条件が必要です。直感的に言えば、これを行うには、すべての可能な をそれらの可算集合で近似できる必要があります 。これは、正則確率測度を作成するための条件、すなわち分離可能性と完全性に直接対応します。 E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})} Ω {\displaystyle \Omega } ∑ i E ( X i ∣ H ) {\displaystyle \sum _{i}\operatorname {E} (X_{i}\mid {\mathcal {H}})} E ( X i ∣ H ) {\displaystyle \operatorname {E} (X_{i}\mid {\mathcal {H}})} X i {\displaystyle X_{i}} E ( X i ∣ H ) {\displaystyle \operatorname {E} (X_{i}\mid {\mathcal {H}})} E ( X i ∣ H ) {\displaystyle \operatorname {E} (X_{i}\mid {\mathcal {H}})} X i {\displaystyle X_{i}} E ( X ∣ H = H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}}=H)} Ω {\displaystyle \Omega } X i {\displaystyle X_{i}} σ 代数 は 条件付けの「粒度」を制御します。 より細かい(より大きな) σ 代数上の条件付き期待値は、より大規模な事象のクラスの確率に関する情報を保持します。より粗い(より小さな) σ 代数上の条件付き期待 値は、より多くの事象を平均化します。 H {\displaystyle {\mathcal {H}}} E ( X ∣ H ) {\displaystyle E(X\mid {\mathcal {H}})} H {\displaystyle {\mathcal {H}}}
条件付き確率 の ボレル部分集合 B について、確率変数の集合を考えることができる。 B ( R n ) {\displaystyle {\mathcal {B}}(\mathbb {R} ^{n})}
κ H ( ω , B ) := E ( 1 X ∈ B | H ) ( ω ) . {\displaystyle \kappa _{\mathcal {H}}(\omega ,B):=\operatorname {E} (1_{X\in B}|{\mathcal {H}})(\omega ).} これらはマルコフ核 を形成することが示されており 、ほぼすべてのに対しては 確率 測度となる。 [9] ω {\displaystyle \omega } κ H ( ω , − ) {\displaystyle \kappa _{\mathcal {H}}(\omega ,-)}
無意識の統計学者の 法則 は
E [ f ( X ) ∣ H ] = ∫ f ( x ) κ H ( − , d x ) , {\displaystyle \operatorname {E} [f(X)\mid {\mathcal {H}}]=\int f(x)\kappa _{\mathcal {H}}(-,\mathrm {d} x),} これは、条件付き期待値は、無条件期待値と同様に、条件付き尺度に対する積分であることを示しています。
一般的な定義 完全に一般化するには、次のことを考慮してください。
確率空間 。 ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},P)} バナッハ 空間 。 ( E , ‖ ⋅ ‖ E ) {\displaystyle (E,\|\cdot \|_{E})} ボホナー 積分可能 確率変数 。 X : Ω → E {\displaystyle X:\Omega \to E} サブ σ 代数 。 H ⊆ A {\displaystyle {\mathcal {H}}\subseteq {\mathcal {A}}} 与えられた の 条件 付き期待値 は、 -nullsetまで 一意かつ積分可能な -値を持つ -測定可能な確率変数 で
あり、 X {\displaystyle X} H {\displaystyle {\mathcal {H}}} P {\displaystyle P} E {\displaystyle E} H {\displaystyle {\mathcal {H}}} E ( X ∣ H ) {\displaystyle \operatorname {E} (X\mid {\mathcal {H}})}
∫ H E ( X ∣ H ) d P = ∫ H X d P {\displaystyle \int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P} すべての人のために 。 [10] [11] H ∈ H {\displaystyle H\in {\mathcal {H}}}
この設定では、条件付き期待値は演算子表記で と表記されることもあります 。 E H X {\displaystyle \operatorname {E} ^{\mathcal {H}}X}
基本的なプロパティ 以下のすべての式は、ほぼ確実に理解されるはずです。
独立した要因の抽出: が から 独立して いる 場合 、 となります 。 X {\displaystyle X} H {\displaystyle {\mathcal {H}}} E ( X ∣ H ) = E ( X ) {\displaystyle E(X\mid {\mathcal {H}})=E(X)} が から独立している 場合 、 となります。ただし 、 が からのみ独立しており、 からのみ独立している 場合は、必ずしもそうではないことに注意してください 。 X {\displaystyle X} σ ( Y , H ) {\displaystyle \sigma (Y,{\mathcal {H}})} E ( X Y ∣ H ) = E ( X ) E ( Y ∣ H ) {\displaystyle E(XY\mid {\mathcal {H}})=E(X)\,E(Y\mid {\mathcal {H}})} X {\displaystyle X} H {\displaystyle {\mathcal {H}}} Y {\displaystyle Y} が 独立しており、 が独立しており、 が から独立しており 、 が から独立している 場合、 となります 。 X , Y {\displaystyle X,Y} G , H {\displaystyle {\mathcal {G}},{\mathcal {H}}} X {\displaystyle X} H {\displaystyle {\mathcal {H}}} Y {\displaystyle Y} G {\displaystyle {\mathcal {G}}} E ( E ( X Y ∣ G ) ∣ H ) = E ( X ) E ( Y ) = E ( E ( X Y ∣ H ) ∣ G ) {\displaystyle E(E(XY\mid {\mathcal {G}})\mid {\mathcal {H}})=E(X)E(Y)=E(E(XY\mid {\mathcal {H}})\mid {\mathcal {G}})} 安定性: が -測定可能である 場合、 。 X {\displaystyle X} H {\displaystyle {\mathcal {H}}} E ( X ∣ H ) = X {\displaystyle E(X\mid {\mathcal {H}})=X} 特に、部分 σ -代数に対しては が成り立ちます 。(これは以下のタワー特性とは異なることに注意してください。) H 1 ⊂ H 2 ⊂ F {\displaystyle {\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}} E ( E ( X ∣ H 1 ) ∣ H 2 ) = E ( X ∣ H 1 ) {\displaystyle E(E(X\mid {\mathcal {H}}_{1})\mid {\mathcal {H}}_{2})=E(X\mid {\mathcal {H}}_{1})} Z がランダム変数である 場合、 となります 。最も単純な形では、 となります 。 E ( f ( Z ) ∣ Z ) = f ( Z ) {\displaystyle \operatorname {E} (f(Z)\mid Z)=f(Z)} E ( Z ∣ Z ) = Z {\displaystyle \operatorname {E} (Z\mid Z)=Z} 既知の要因の抽出: が -測定可能である 場合、 。 X {\displaystyle X} H {\displaystyle {\mathcal {H}}} E ( X Y ∣ H ) = X E ( Y ∣ H ) {\displaystyle E(XY\mid {\mathcal {H}})=X\,E(Y\mid {\mathcal {H}})} 証拠
ここで、すべての確率変数は一般性を失うことなく非負であると仮定する。一般的なケースは で扱うことができる 。 X = X + − X − {\displaystyle X=X^{+}-X^{-}}
を固定 して置く 。すると任意の A ∈ H {\displaystyle A\in {\mathcal {H}}} X = 1 A {\displaystyle X=1_{A}} H ∈ H {\displaystyle H\in {\mathcal {H}}}
∫ H E ( 1 A Y ∣ H ) d P = ∫ H 1 A Y d P = ∫ A ∩ H Y d P = ∫ A ∩ H E ( Y ∣ H ) d P = ∫ H 1 A E ( Y ∣ H ) d P {\displaystyle \int _{H}E(1_{A}Y\mid {\mathcal {H}})\,dP=\int _{H}1_{A}Y\,dP=\int _{A\cap H}Y\,dP=\int _{A\cap H}E(Y\mid {\mathcal {H}})\,dP=\int _{H}1_{A}E(Y\mid {\mathcal {H}})\,dP} したがって、 ほとんどどこにでも。 E ( 1 A Y ∣ H ) = 1 A E ( Y ∣ H ) {\displaystyle E(1_{A}Y\mid {\mathcal {H}})=1_{A}E(Y\mid {\mathcal {H}})}
任意の単純関数は、指示関数の有限線型結合である。線型性により、上記の性質は単純関数にも成り立つ。 すなわち、 が単純関数であるならば となる 。 X n {\displaystyle X_{n}} E ( X n Y ∣ H ) = X n E ( Y ∣ H ) {\displaystyle E(X_{n}Y\mid {\mathcal {H}})=X_{n}\,E(Y\mid {\mathcal {H}})}
ここで を-可測と します。すると、 に 単調収束(ここでは )し、かつ各点ごとに収束する 単純関数の列が存在します 。したがって、 に対して 、この列は に単調収束し、かつ各点ごとに収束します 。 X {\displaystyle X} H {\displaystyle {\mathcal {H}}} { X n } n ≥ 1 {\displaystyle \{X_{n}\}_{n\geq 1}} X n ≤ X n + 1 {\displaystyle X_{n}\leq X_{n+1}} X {\displaystyle X} Y ≥ 0 {\displaystyle Y\geq 0} { X n Y } n ≥ 1 {\displaystyle \{X_{n}Y\}_{n\geq 1}} X Y {\displaystyle XY}
また、 なので 、この数列は 単調かつ点ごとに収束し、 E ( Y ∣ H ) ≥ 0 {\displaystyle E(Y\mid {\mathcal {H}})\geq 0} { X n E ( Y ∣ H ) } n ≥ 1 {\displaystyle \{X_{n}E(Y\mid {\mathcal {H}})\}_{n\geq 1}} X E ( Y ∣ H ) {\displaystyle X\,E(Y\mid {\mathcal {H}})}
単純な関数に対して証明された特殊なケース、条件付き期待値の定義、および単調収束定理の展開を組み合わせると、
∫ H X E ( Y ∣ H ) d P = ∫ H lim n → ∞ X n E ( Y ∣ H ) d P = lim n → ∞ ∫ H X n E ( Y ∣ H ) d P = lim n → ∞ ∫ H E ( X n Y ∣ H ) d P = lim n → ∞ ∫ H X n Y d P = ∫ H lim n → ∞ X n Y d P = ∫ H X Y d P = ∫ H E ( X Y ∣ H ) d P {\displaystyle \int _{H}X\,E(Y\mid {\mathcal {H}})\,dP=\int _{H}\lim _{n\to \infty }X_{n}\,E(Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}X_{n}E(Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}E(X_{n}Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}X_{n}Y\,dP=\int _{H}\lim _{n\to \infty }X_{n}Y\,dP=\int _{H}XY\,dP=\int _{H}E(XY\mid {\mathcal {H}})\,dP} これはすべてに当てはまり 、 ほとんどどこにでも当てはまります。 H ∈ H {\displaystyle H\in {\mathcal {H}}} X E ( Y ∣ H ) = E ( X Y ∣ H ) {\displaystyle X\,E(Y\mid {\mathcal {H}})=E(XY\mid {\mathcal {H}})} ◻ {\displaystyle \square }
Z がランダム変数である 場合、 . E ( f ( Z ) Y ∣ Z ) = f ( Z ) E ( Y ∣ Z ) {\displaystyle \operatorname {E} (f(Z)Y\mid Z)=f(Z)\operatorname {E} (Y\mid Z)} 総期待値の法則 : [ 12] E ( E ( X ∣ H ) ) = E ( X ) {\displaystyle E(E(X\mid {\mathcal {H}}))=E(X)} タワープロパティ: 部分 σ - 代数の場合 、 が成り立ちます 。 H 1 ⊂ H 2 ⊂ F {\displaystyle {\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}} E ( E ( X ∣ H 2 ) ∣ H 1 ) = E ( X ∣ H 1 ) {\displaystyle E(E(X\mid {\mathcal {H}}_{2})\mid {\mathcal {H}}_{1})=E(X\mid {\mathcal {H}}_{1})} 特別なケースでは、 総期待値の法則が回復されます 。 H 1 = { ∅ , Ω } {\displaystyle {\mathcal {H}}_{1}=\{\emptyset ,\Omega \}} E ( E ( X ∣ H 2 ) ) = E ( X ) {\displaystyle E(E(X\mid {\mathcal {H}}_{2}))=E(X)} 特別なケースとして、 Z が -測定可能な確率変数である場合が挙げられます 。その場合 、したがって となります 。 H {\displaystyle {\mathcal {H}}} σ ( Z ) ⊂ H {\displaystyle \sigma (Z)\subset {\mathcal {H}}} E ( E ( X ∣ H ) ∣ Z ) = E ( X ∣ Z ) {\displaystyle E(E(X\mid {\mathcal {H}})\mid Z)=E(X\mid Z)} Doob マルチンゲール 特性: 上記を (- 測定可能) とし、 も使用すると 、 が得られます 。 Z = E ( X ∣ H ) {\displaystyle Z=E(X\mid {\mathcal {H}})} H {\displaystyle {\mathcal {H}}} E ( Z ∣ Z ) = Z {\displaystyle \operatorname {E} (Z\mid Z)=Z} E ( X ∣ E ( X ∣ H ) ) = E ( X ∣ H ) {\displaystyle E(X\mid E(X\mid {\mathcal {H}}))=E(X\mid {\mathcal {H}})} ランダム変数の場合、次の 式が成り立ちます 。 X , Y {\displaystyle X,Y} E ( E ( X ∣ Y ) ∣ f ( Y ) ) = E ( X ∣ f ( Y ) ) {\displaystyle E(E(X\mid Y)\mid f(Y))=E(X\mid f(Y))} ランダム変数の場合、次の 式が成り立ちます 。 X , Y , Z {\displaystyle X,Y,Z} E ( E ( X ∣ Y , Z ) ∣ Y ) = E ( X ∣ Y ) {\displaystyle E(E(X\mid Y,Z)\mid Y)=E(X\mid Y)} 線形性: に対して 、およびが成り立ち ます 。 E ( X 1 + X 2 ∣ H ) = E ( X 1 ∣ H ) + E ( X 2 ∣ H ) {\displaystyle E(X_{1}+X_{2}\mid {\mathcal {H}})=E(X_{1}\mid {\mathcal {H}})+E(X_{2}\mid {\mathcal {H}})} E ( a X ∣ H ) = a E ( X ∣ H ) {\displaystyle E(aX\mid {\mathcal {H}})=a\,E(X\mid {\mathcal {H}})} a ∈ R {\displaystyle a\in \mathbb {R} } ポジティブ:もし そうなら 。 X ≥ 0 {\displaystyle X\geq 0} E ( X ∣ H ) ≥ 0 {\displaystyle E(X\mid {\mathcal {H}})\geq 0} 単調性: ならば 。 X 1 ≤ X 2 {\displaystyle X_{1}\leq X_{2}} E ( X 1 ∣ H ) ≤ E ( X 2 ∣ H ) {\displaystyle E(X_{1}\mid {\mathcal {H}})\leq E(X_{2}\mid {\mathcal {H}})} 単調収束 : ならば 。 0 ≤ X n ↑ X {\displaystyle 0\leq X_{n}\uparrow X} E ( X n ∣ H ) ↑ E ( X ∣ H ) {\displaystyle E(X_{n}\mid {\mathcal {H}})\uparrow E(X\mid {\mathcal {H}})} 優勢収束 : かつ の場合 、 と なります 。 X n → X {\displaystyle X_{n}\to X} | X n | ≤ Y {\displaystyle |X_{n}|\leq Y} Y ∈ L 1 {\displaystyle Y\in L^{1}} E ( X n ∣ H ) → E ( X ∣ H ) {\displaystyle E(X_{n}\mid {\mathcal {H}})\to E(X\mid {\mathcal {H}})} ファトゥの補題 : もしも ならば . E ( inf n X n ∣ H ) > − ∞ {\displaystyle \textstyle E(\inf _{n}X_{n}\mid {\mathcal {H}})>-\infty } E ( lim inf n → ∞ X n ∣ H ) ≤ lim inf n → ∞ E ( X n ∣ H ) {\displaystyle \textstyle E(\liminf _{n\to \infty }X_{n}\mid {\mathcal {H}})\leq \liminf _{n\to \infty }E(X_{n}\mid {\mathcal {H}})} ジェンセンの不等式 : が 凸関数 である場合 、 。 f : R → R {\displaystyle f\colon \mathbb {R} \rightarrow \mathbb {R} } f ( E ( X ∣ H ) ) ≤ E ( f ( X ) ∣ H ) {\displaystyle f(E(X\mid {\mathcal {H}}))\leq E(f(X)\mid {\mathcal {H}})} 条件付き分散:条件付き期待値を用いて、 分散を 平均からの平均二乗偏差として 定義することから類推して、条件付き分散を定義することができる。 意味: Var ( X ∣ H ) = E ( ( X − E ( X ∣ H ) ) 2 ∣ H ) {\displaystyle \operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} {\bigl (}(X-\operatorname {E} (X\mid {\mathcal {H}}))^{2}\mid {\mathcal {H}}{\bigr )}} 分散の代数式: Var ( X ∣ H ) = E ( X 2 ∣ H ) − ( E ( X ∣ H ) ) 2 {\displaystyle \operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} (X^{2}\mid {\mathcal {H}})-{\bigl (}\operatorname {E} (X\mid {\mathcal {H}}){\bigr )}^{2}} 全分散の法則 : 。 Var ( X ) = E ( Var ( X ∣ H ) ) + Var ( E ( X ∣ H ) ) {\displaystyle \operatorname {Var} (X)=\operatorname {E} (\operatorname {Var} (X\mid {\mathcal {H}}))+\operatorname {Var} (\operatorname {E} (X\mid {\mathcal {H}}))} マルチンゲール収束 : 有限の期待値を持つランダム変数 について 、がサブ σ 代数 の増加級数で ありがサブ σ 代数 減少級数であり である 場合はが成り立ちます 。 X {\displaystyle X} E ( X ∣ H n ) → E ( X ∣ H ) {\displaystyle E(X\mid {\mathcal {H}}_{n})\to E(X\mid {\mathcal {H}})} H 1 ⊂ H 2 ⊂ ⋯ {\displaystyle {\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset \dotsb } H = σ ( ⋃ n = 1 ∞ H n ) {\displaystyle \textstyle {\mathcal {H}}=\sigma (\bigcup _{n=1}^{\infty }{\mathcal {H}}_{n})} H 1 ⊃ H 2 ⊃ ⋯ {\displaystyle {\mathcal {H}}_{1}\supset {\mathcal {H}}_{2}\supset \dotsb } H = ⋂ n = 1 ∞ H n {\displaystyle \textstyle {\mathcal {H}}=\bigcap _{n=1}^{\infty }{\mathcal {H}}_{n}} 射影としての条件付き期待値 :が 平方積分可能な 実数確率変数(有限の2次モーメントを持つ実数確率変数) の ヒルベルト空間 内にある場合、 L 2 {\displaystyle L^{2}} X , Y {\displaystyle X,Y} -可測な関数に対しては が成り立ちます。 つまり 、 条件付き期待値は から-可測な関数 の 線形 部分空間 への 直交射影の L 2 ( P ) スカラー積 の意味で成り立ちます。 (これにより 、ヒルベルト射影定理 に基づいて条件付き期待値の定義と存在の証明が可能になります 。) H {\displaystyle {\mathcal {H}}} Y {\displaystyle Y} E ( Y ( X − E ( X ∣ H ) ) ) = 0 {\displaystyle E(Y(X-E(X\mid {\mathcal {H}})))=0} E ( X ∣ H ) {\displaystyle E(X\mid {\mathcal {H}})} X {\displaystyle X} H {\displaystyle {\mathcal {H}}} 写像は 自己随伴で ある : X ↦ E ( X ∣ H ) {\displaystyle X\mapsto \operatorname {E} (X\mid {\mathcal {H}})} E ( X E ( Y ∣ H ) ) = E ( E ( X ∣ H ) E ( Y ∣ H ) ) = E ( E ( X ∣ H ) Y ) {\displaystyle \operatorname {E} (X\operatorname {E} (Y\mid {\mathcal {H}}))=\operatorname {E} \left(\operatorname {E} (X\mid {\mathcal {H}})\operatorname {E} (Y\mid {\mathcal {H}})\right)=\operatorname {E} (\operatorname {E} (X\mid {\mathcal {H}})Y)} 条件付けは L p 空間 の 収縮 射影である。つまり、任意の p ≥ 1 に対してである。 L p ( Ω , F , P ) → L p ( Ω , H , P ) {\displaystyle L^{p}(\Omega ,{\mathcal {F}},P)\rightarrow L^{p}(\Omega ,{\mathcal {H}},P)} E ( | E ( X ∣ H ) | p ) ≤ E ( | X | p ) {\displaystyle \operatorname {E} {\big (}|\operatorname {E} (X\mid {\mathcal {H}})|^{p}{\big )}\leq \operatorname {E} {\big (}|X|^{p}{\big )}} ドゥーブの条件付き独立性の性質: [13] が 与えられた 場合に 条件付き独立で あれば、 (同値、 )となる。 X , Y {\displaystyle X,Y} Z {\displaystyle Z} P ( X ∈ B ∣ Y , Z ) = P ( X ∈ B ∣ Z ) {\displaystyle P(X\in B\mid Y,Z)=P(X\in B\mid Z)} E ( 1 { X ∈ B } ∣ Y , Z ) = E ( 1 { X ∈ B } ∣ Z ) {\displaystyle E(1_{\{X\in B\}}\mid Y,Z)=E(1_{\{X\in B\}}\mid Z)}
参照
確率の法則
注記 ^ コルモゴロフ、アンドレイ (1933)。 Grundbegriffe der Wahrscheinlichkeitsrechnung (ドイツ語)。ベルリン:ユリウス・シュプリンガー。 p. 46. ^ Oxtoby, JC (1953). 「レビュー:測度論、P.R. Halmos著」 (PDF) . Bull. Amer. Math. Soc . 59 (1): 89– 91. doi : 10.1090/s0002-9904-1953-09662-8 . ^ JL Doob (1953). 確率過程 . John Wiley & Sons . ISBN 0-471-52369-0 。 ^ オラフ・カレンバーグ著『 現代確率論の基礎』 第2版、シュプリンガー、ニューヨーク、2002年、 ISBN 0-387-95313-2 、573ページ。 ^ 「確率 - 条件付き期待値の背後にある直感」 Mathematics Stack Exchange 。 ^ ブロックウェル、ピーター・J. (1991). 『時系列:理論と方法』 (第2版). ニューヨーク: シュプリンガー・フェアラーク. ISBN 978-1-4419-0320-4 。 ^ ハスティー、トレバー(2009年8月26日)『統計学習の要素:データマイニング、推論、予測』 (PDF) (第2版、訂正第7刷)。ニューヨーク 。ISBN 978-0-387-84858-7 。 {{cite book }}: CS1 maint: location missing publisher (link )^ ビリングスリー、パトリック (1995). 「第34章 条件付き期待値」. 確率と測度 (第3版). John Wiley & Sons. p. 445. ISBN 0-471-00710-2 。 ^ Klenke, Achim (2013年8月30日). 確率論:総合講座 (第2版). ロンドン. ISBN 978-1-4471-5361-0 。 {{cite book }}: CS1 maint: location missing publisher (link )^ Da Prato, Giuseppe; Zabczyk, Jerzy (2014). 無限次元における確率方程式 . Cambridge University Press. p. 26. doi :10.1017/CBO9781107295513. ISBN 978-1-107-05584-1 。 (可分バナッハ空間における定義) ^ ハイトーネン、トゥオーマス;ヤン・ファン・ニールフェン。ヴェラール、マーク。ヴァイス、ルッツ(2016)。 バナッハ空間での分析、第 1 巻: マーチンゲールとリトルウッド-ペイリー理論 。スプリンガー・チャム。 土井 :10.1007/978-3-319-48520-1。 ISBN 978-3-319-48519-5 。 (一般のバナッハ空間における定義) ^ 「条件付き期待値」 www.statlect.com . 2020年9月11日 閲覧 。 ^ カレンバーグ、オラフ (2001)。 現代確率の基礎 (第 2 版)。米国ペンシルバニア州ヨーク:スプリンガー。 p. 110.ISBN 0-387-95313-2 。
参考文献 ウィリアム・ フェラー 『確率論とその応用入門』 第1巻、1950年、223ページ ポール・A・マイヤー著 『確率とポテンシャル 』ブレイズデル出版、1966年、28ページ グリメット、ジェフリー 、スターザカー、デイヴィッド (2001). 確率とランダム過程 (第3版). オックスフォード大学出版局. ISBN 0-19-857222-0 。 、67~69ページ
外部リンク