条件付き期待値

確率論において、条件付き期待値、条件付き期待値、または条件付き平均は、条件付き確率分布に基づいて評価された確率変数の期待値です。確率変数が有限個の値しか取れない場合、「条件」とは、変数がそれらの値の一部しか取れないことを指します。より正式には、確率変数が離散確率空間上で定義されている場合、「条件」とは、この確率空間の分割を指します。

条件付き期待値は、文脈に応じて確率変数または関数のいずれかになります。確率変数は条件付き確率と同様に表記されます。関数形はで表されるか、のような独立した関数記号で表され、の意味を持ちます。 $E(X\mid Y)$ $E(X\mid Y=y)$ $f(y)$ $E(X\mid Y)=f(Y)$

例

例1: サイコロを振る

公平なサイコロを振ることを考えてみましょう。出た目が偶数（つまり2、4、または6）の場合はA = 1、そうでない場合はA = 0とします。さらに、出た目が素数（つまり2、3、または5）の場合はB = 1、そうでない場合はB = 0とします。

	1	2	3	4	5	6
あ	0	1	0	1	0	1
B	0	1	1	0	1	0

A の無条件期待値はですが、 B = 1 を条件とするA の期待値は（つまり、サイコロの目が 2、3、または 5 である条件）であり、 B = 0を条件とする A の期待値は（つまり、サイコロの目が 1、4、または 6 である条件）です。同様に、A = 1 を条件とする B の期待値はであり、 A = 0を条件とするBの期待値はです。 $E[A]=(0+1+0+1+0+1)/6=1/2$ $E[A\mid B=1]=(1+0+0)/3=1/3$ $E[A\mid B=0]=(0+1+1)/3=2/3$ $E[B\mid A=1]=(1+0+0)/3=1/3$ $E[B\mid A=0]=(0+1+1)/3=2/3$

例2: 降水量データ

1990 年 1 月 1 日から 1999 年 12 月 31 日までの 10 年間 (3652 日) の毎日、気象観測所で収集された毎日の降雨量データ (1 日あたりの降雨量 mm) があるとします。指定されていない日の無条件降雨量期待値は、3652 日間の降雨量の平均です。3月であることがわかっている (3 月であることを条件とする)、それ以外は指定されていない日の条件付き降雨量期待値は、10 年間のうち 3 月に該当する 310 日間すべての日降雨量の平均です。同様に、3 月 2 日の日付を条件とする条件付き降雨量期待値は、その特定の日付を含む 10 日間の降雨量の平均です。

歴史

条件付き確率という関連概念は、少なくとも条件付き分布を計算したラプラスにまで遡ります。1933年にアンドレイ・コルモゴロフがラドン・ニコディム定理を用いてこれを定式化しました。^{[1] 1953年の}ポール・ハルモス^[2]とジョセフ・L・ドゥーブ^[3] の研究において、条件付き期待値は部分σ代数を用いて現代的な定義に一般化されました。^[4]

定義

イベントの条件付け

$A$ が非ゼロ確率のにおける事象であり、 $Xが$ 離散確率変数である場合、 $A$ が与えられたときの $X$ の条件付き期待値は ${\mathcal {F}}$

{\begin{aligned}\operatorname {E} (X\mid A)&=\sum _{x}xP(X=x\mid A)\\&=\sum _{x}x{\frac {P(\{X=x\}\cap A)}{P(A)}}\end{aligned}}

ここで、合計は $X$ のすべての可能な結果にわたって行われます。

の場合、ゼロ除算のため条件付き期待値は未定義になります。 $P(A)=0$

離散確率変数

$X$ と $Yが$ 離散確率変数である場合、 $Y$ が与えられたときの $X$ の条件付き期待値は

{\begin{aligned}\operatorname {E} (X\mid Y=y)&=\sum _{x}xP(X=x\mid Y=y)\\&=\sum _{x}x{\frac {P(X=x,Y=y)}{P(Y=y)}}\end{aligned}}

ここで、は $X$ と $Y$ の結合確率質量関数です。この和は $X$ のすべての可能な結果について求められます。 $P(X=x,Y=y)$

上記のように、の場合、式は未定義になります。 $P(Y=y)=0$

離散確率変数の条件付けは、対応するイベントの条件付けと同じです。

\operatorname {E} (X\mid Y=y)=\operatorname {E} (X\mid A)

ここで、 $A$ は集合です。 $\{Y=y\}$

連続確率変数

を連続確率変数とし、結合密度の密度とイベントが与えられた場合の条件付き密度とする。与えられた場合の条件付き期待値は $X$ $Y$ $f_{X,Y}(x,y),$ $Y$ $f_{Y}(y),$ $\textstyle f_{X\mid Y}(x\mid y)={\frac {f_{X,Y}(x,y)}{f_{Y}(y)}}$ $X$ $Y=y.$ $X$ $Y=y$

{\begin{aligned}\operatorname {E} (X\mid Y=y)&=\int _{-\infty }^{\infty }xf_{X\mid Y}(x\mid y)\,\mathrm {d} x\\&={\frac {1}{f_{Y}(y)}}\int _{-\infty }^{\infty }xf_{X,Y}(x,y)\,\mathrm {d} x.\end{aligned}}

分母がゼロの場合、式は未定義になります。

連続確率変数の条件付けは、離散確率変数の場合の事象の条件付けとは異なります。詳細については、「確率ゼロの事象の条件付け」を参照してください。この区別を守らないと、ボレル＝コルモゴロフのパラドックスで示されるように、矛盾した結論に至る可能性があります。 $\{Y=y\}$

L²確率変数

この節におけるすべての確率変数は、すなわち平方積分可能であると仮定する。条件付き期待値は、その完全な一般性において、この仮定なしに展開される。詳細は、後述の「部分σ-代数に関する条件付き期待値」を参照のこと。しかし、この理論はより直感的であると考えられており^[5]、重要な一般化が可能である。確率変数の文脈では、条件付き期待値は回帰とも呼ばれる。 $L^{2}$ $L^{2}$ $L^{2}$

以下では、確率空間をとし、平均、分散とする。期待値は平均二乗誤差を最小化する。 $(\Omega ,{\mathcal {F}},P)$ $X:\Omega \to \mathbb {R}$ $L^{2}$ $\mu _{X}$ $\sigma _{X}^{2}$ $\mu _{X}$

\min _{x\in \mathbb {R} }\operatorname {E} \left((X-x)^{2}\right)=\operatorname {E} \left((X-\mu _{X})^{2}\right)=\sigma _{X}^{2}.

$X$ の条件付き期待値も同様に定義されますが、結果は単一の数値ではなく関数となります。をランダムベクトルとします。条件付き期待値は、以下の式で表される測定可能な関数です。 $\mu _{X}$ $e_{X}(y)$ $Y:\Omega \to \mathbb {R} ^{n}$ $e_{X}:\mathbb {R} ^{n}\to \mathbb {R}$

\min _{g{\text{ measurable }}}\operatorname {E} \left((X-g(Y))^{2}\right)=\operatorname {E} \left((X-e_{X}(Y))^{2}\right).

とは異なり、条件付き期待値は一般に一意ではないことに注意してください。つまり、平均二乗誤差を最小化するものが複数存在する可能性があります。 $\mu _{X}$ $e_{X}$

ユニークさ

例1 : $Y$ が常に1である定数確率変数である場合を考えます。この場合、平均二乗誤差は次の形式の関数によって最小化されます。

e_{X}(y)={\begin{cases}\mu _{X}&{\text{if }}y=1,\\{\text{any number}}&{\text{otherwise.}}\end{cases}}

例2 ： $Y$ が2次元のランダムベクトルである場合を考えます。すると、明らかに $(X,2X)$

\operatorname {E} (X\mid Y)=X

しかし、関数的には、または、あるいは無限に多くの他の方法で表現できます。線型回帰の文脈では、この一意性の欠如は多重共線性と呼ばれます。 $e_{X}(y_{1},y_{2})=3y_{1}-y_{2}$ $e'_{X}(y_{1},y_{2})=y_{2}-y_{1}$

条件付き期待値は、における測度零点の集合まで一意である。使用される測度は、 $Y$ によって誘導されるプッシュフォワード測度である。 $\mathbb {R} ^{n}$

最初の例では、プッシュフォワード測度は1 におけるディラック分布です。2 番目の例では、これが「対角線」に集中しているため、これと交差しない集合の測度は 0 になります。 $\{y:y_{2}=2y_{1}\}$

存在

の最小化子の存在は自明ではない。 $\min _{g}\operatorname {E} \left((X-g(Y))^{2}\right)$

M:=\{g(Y):g{\text{ is measurable and }}\operatorname {E} (g(Y)^{2})<\infty \}=L^{2}(\Omega ,\sigma (Y))

はヒルベルト空間の閉部分空間である。^[6]ヒルベルト射影定理によれば、が最小化子となるための必要十分条件は、 $M$ のすべてのに対して、 $L^{2}(\Omega )$ $e_{X}$ $f(Y)$

\langle X-e_{X}(Y),f(Y)\rangle =0.

言葉で言えば、この式は残差が $Y$ のすべての関数の空間 $M$ に直交することを示しています。この直交性条件は指示関数に適用され、以下では $X$ と $Y が$ 必ずしもに含まれない場合に条件付き期待値を拡張するために用いられます。 $X-e_{X}(Y)$ $f(Y)=1_{Y\in H}$ $L^{2}$

回帰との関連

条件付き期待値は、解析的に計算したり補間したりすることが難しいため、応用数学や統計学では近似値として扱われることが多い。 ^[7]

ヒルベルト部分空間

M=\{g(Y):\operatorname {E} (g(Y)^{2})<\infty \}

$上記で定義した関数は、 g$ の関数形式を制限し、測定可能な関数を許容しないことで、その部分集合に置き換えられます。この例としては、 $g が$ 単関数であることが求められる決定木回帰、 $gが$ アフィンであることが求められる線形回帰などが挙げられます。

条件付き期待値のこれらの一般化は、多くの性質がもはや成り立たなくなるという代償を伴います。例えば、 $M を$ $Y$ のすべての線型関数の成す空間とし、をこの一般化された条件付き期待値/射影とします。が定数関数を含まない場合、タワーの性質は成り立ちません。 ${\mathcal {E}}_{M}$ $L^{2}$ $M$ $\operatorname {E} ({\mathcal {E}}_{M}(X))=\operatorname {E} (X)$

重要な特殊なケースとして、 $X$ と $Y$ が共に正規分布する場合が挙げられます。この場合、条件付き期待値は線形回帰と等価であることが示されます。

e_{X}(Y)=\alpha _{0}+\sum _{i}\alpha _{i}Y_{i}

多変量正規分布#条件付き分布で説明されている係数。 $\{\alpha _{i}\}_{i=0..n}$

サブ-に関する条件付き期待値σ-代数

**σ代数に関する条件付き期待値：**この例では、確率空間はルベーグ測度を持つ [0,1] 区間です。以下のσ代数を定義します。;は、端点が 0、1 ⁄ 4、1 ⁄ 2、3 ⁄ 4、1 である区間によって生成される σ 代数です。は、端点が0、1 ⁄ 2、1である区間によって生成される σ 代数です。ここで、条件付き期待値は、*実質的にσ*代数の最小集合の平均です。 $(\Omega ,{\mathcal {F}},P)$ ${\mathcal {A}}={\mathcal {F}}$ ${\mathcal {B}}$ ${\mathcal {C}}$

次の点を考慮してください。

$(\Omega ,{\mathcal {F}},P)$ は確率空間です。
$X\colon \Omega \to \mathbb {R} ^{n}$ 有限の期待値を持つ確率空間上のランダム変数です。
${\mathcal {H}}\subseteq {\mathcal {F}}$ はの部分σ代数である。 ${\mathcal {F}}$

はの部分代数であるため、関数は通常 -可測ではない。したがって、（ただしとはからへの制約である）の形の積分の存在は一般には断言できない。しかし、条件付き期待値を用いることで、における局所平均を復元することは可能である。 ${\mathcal {H}}$ $\sigma$ ${\mathcal {F}}$ $X\colon \Omega \to \mathbb {R} ^{n}$ ${\mathcal {H}}$ ${\textstyle \int _{H}X\,dP|_{\mathcal {H}}}$ $H\in {\mathcal {H}}$ $P|_{\mathcal {H}}$ $P$ ${\mathcal {H}}$ ${\textstyle \int _{H}X\,dP}$ $(\Omega ,{\mathcal {H}},P|_{\mathcal {H}})$

が与えられたときのXの条件付き期待値は、次を満たす任意の-測定可能な関数です。 ${\mathcal {H}}$ $\operatorname {E} (X\mid {\mathcal {H}})$ ${\mathcal {H}}$ $\Omega \to \mathbb {R} ^{n}$

\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P

それぞれについて。^[8] $H\in {\mathcal {H}}$

議論で述べたように、この条件は残差が指標関数に直交していると言うことと同等です。 $L^{2}$ $X-\operatorname {E} (X\mid {\mathcal {H}})$ $1_{H}$

\langle X-\operatorname {E} (X\mid {\mathcal {H}}),1_{H}\rangle =0

存在

の存在は、に対するが上の有限測度であり、に関して絶対連続であることに着目することで証明できる。がからへの自然な射影であるならば、はへの制限であり、はへのの制限である。さらに、はに関して絶対連続である。これは、条件 $\operatorname {E} (X\mid {\mathcal {H}})$ ${\textstyle \mu ^{X}\colon F\mapsto \int _{F}X\,\mathrm {d} P}$ $F\in {\mathcal {F}}$ $(\Omega ,{\mathcal {F}})$ $P$ $h$ ${\mathcal {H}}$ ${\mathcal {F}}$ $\mu ^{X}\circ h=\mu ^{X}|_{\mathcal {H}}$ $\mu ^{X}$ ${\mathcal {H}}$ $P\circ h=P|_{\mathcal {H}}$ $P$ ${\mathcal {H}}$ $\mu ^{X}\circ h$ $P\circ h$

P\circ h(H)=0\iff P(h(H))=0

暗示する

\mu ^{X}(h(H))=0\iff \mu ^{X}\circ h(H)=0.

したがって、

\operatorname {E} (X\mid {\mathcal {H}})={\frac {\mathrm {d} \mu ^{X}|_{\mathcal {H}}}{\mathrm {d} P|_{\mathcal {H}}}}={\frac {\mathrm {d} (\mu ^{X}\circ h)}{\mathrm {d} (P\circ h)}},

ここで、導関数は測度のラドン・ニコディム導関数です。

確率変数に関する条件付き期待値

上記に加えて、

測定可能な空間、そして $(U,\Sigma )$
ランダム変数。 $Y\colon \Omega \to U$

$Y$ が与えられたときの $X$ の条件付き期待値は、 $Y$ によって生成された σ代数に上記の構成を適用することによって定義されます。

\operatorname {E} [X\mid Y]:=\operatorname {E} [X\mid \sigma (Y)].

ドゥーブ・ディンキンの補題によれば、次のような測定可能な関数が存在する。 $e_{X}\colon U\to \mathbb {R} ^{n}$

\operatorname {E} [X\mid Y]=e_{X}(Y).

議論

これは構成的な定義ではありません。条件付き期待値が満たさなければならない必須の特性が与えられているだけです。
- の定義は、事象に対するの定義に似ているかもしれませんが、これらは全く異なる対象です。前者は-測定可能な関数であり、後者はに対するの元です。 $\operatorname {E} (X\mid {\mathcal {H}})$ $\operatorname {E} (X\mid H)$ $H$ ${\mathcal {H}}$ $\Omega \to \mathbb {R} ^{n}$ $\mathbb {R} ^{n}$ $\operatorname {E} (X\mid H)\ P(H)=\int _{H}X\,\mathrm {d} P=\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P$ $H\in {\mathcal {H}}$
- 一意性はほぼ確実に示されます。つまり、同じ条件付き期待値のバージョンは、確率がゼロのセットでのみ異なります。
  - 多くの場合、固定された H に対してをの測度として考えたい場合があります。例えば、ほぼすべての H に対してが加法的であると主張することは非常に便利です。しかし、それぞれが異なる空集合を持つ可能性があるため、これは直ちに成り立ちません。空集合の可算和は空集合であるため、の可算集合に対して、ほぼすべての H に対して加法性を維持するように、の「バージョン」をとして整列させた空集合で選択することができます。しかし、の「機能不全の空集合」をすべての可能なに対して整列させ、をに対してほぼ確実に一意な測度（「正則確率測度」）として扱うには、さらなる正則性条件が必要です。直感的に言えば、これを行うには、すべての可能なをそれらの可算集合で近似できる必要があります。これは、正則確率測度を作成するための条件、すなわち分離可能性と完全性に直接対応します。 $\operatorname {E} (X\mid {\mathcal {H}})$ $\Omega$ $\sum _{i}\operatorname {E} (X_{i}\mid {\mathcal {H}})$ $\operatorname {E} (X_{i}\mid {\mathcal {H}})$ $X_{i}$ $\operatorname {E} (X_{i}\mid {\mathcal {H}})$ $\operatorname {E} (X_{i}\mid {\mathcal {H}})$ $X_{i}$ $\operatorname {E} (X\mid {\mathcal {H}}=H)$ $\Omega$ $X_{i}$
σ代数は条件付けの「粒度」を制御します。より細かい（より大きな）σ代数上の条件付き期待値は、より大規模な事象のクラスの確率に関する情報を保持します。より粗い（より小さな） σ代数上の条件付き期待値は、より多くの事象を平均化します。 ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})$ ${\mathcal {H}}$

条件付き確率

のボレル部分集合 $B$ について、確率変数の集合を考えることができる。 ${\mathcal {B}}(\mathbb {R} ^{n})$

\kappa _{\mathcal {H}}(\omega ,B):=\operatorname {E} (1_{X\in B}|{\mathcal {H}})(\omega ).

これらはマルコフ核を形成することが示されており、ほぼすべてのに対しては確率測度となる。^[9] $\omega$ $\kappa _{\mathcal {H}}(\omega ,-)$

無意識の統計学者の法則は

\operatorname {E} [f(X)\mid {\mathcal {H}}]=\int f(x)\kappa _{\mathcal {H}}(-,\mathrm {d} x),

これは、条件付き期待値は、無条件期待値と同様に、条件付き尺度に対する積分であることを示しています。

一般的な定義

完全に一般化するには、次のことを考慮してください。

確率空間。 $(\Omega ,{\mathcal {A}},P)$
バナッハ空間。 $(E,\|\cdot \|_{E})$
ボホナー積分可能確率変数。 $X:\Omega \to E$
サブσ代数。 ${\mathcal {H}}\subseteq {\mathcal {A}}$

与えられたの条件付き期待値は、 -nullsetまで一意かつ積分可能な-値を持つ-測定可能な確率変数であり、 $X$ ${\mathcal {H}}$ $P$ $E$ ${\mathcal {H}}$ $\operatorname {E} (X\mid {\mathcal {H}})$

\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P

すべての人のために。^[10]^[11] $H\in {\mathcal {H}}$

この設定では、条件付き期待値は演算子表記でと表記されることもあります。 $\operatorname {E} ^{\mathcal {H}}X$

基本的なプロパティ

以下のすべての式は、ほぼ確実に理解されるはずです。

独立した要因の抽出:
- がから独立している場合、となります。 $X$ ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})=E(X)$

証拠

とする。するとはとは独立なので、 $B\in {\mathcal {H}}$ $X$ $1_{B}$

\int _{B}X\,dP=E(X1_{B})=E(X)E(1_{B})=E(X)P(B)=\int _{B}E(X)\,dP.

したがって、条件付き期待値の定義は、期待どおりに定数ランダム変数によって満たされます。 $E(X)$ $\square$

- がから独立している場合、となります。ただし、がからのみ独立しており、からのみ独立している場合は、必ずしもそうではないことに注意してください。 $X$ $\sigma (Y,{\mathcal {H}})$ $E(XY\mid {\mathcal {H}})=E(X)\,E(Y\mid {\mathcal {H}})$ $X$ ${\mathcal {H}}$ $Y$
- が独立しており、が独立しており、がから独立しており、がから独立している場合、となります。 $X,Y$ ${\mathcal {G}},{\mathcal {H}}$ $X$ ${\mathcal {H}}$ $Y$ ${\mathcal {G}}$ $E(E(XY\mid {\mathcal {G}})\mid {\mathcal {H}})=E(X)E(Y)=E(E(XY\mid {\mathcal {H}})\mid {\mathcal {G}})$
安定性：
- が-測定可能である場合、。 $X$ ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})=X$

証拠

それぞれに対して、あるいは同値である $H\in {\mathcal {H}}$ $\int _{H}E(X\mid {\mathcal {H}})\,dP=\int _{H}X\,dP$

\int _{H}{\big (}E(X\mid {\mathcal {H}})-X{\big )}\,dP=0

これは各に対して真であり、とは両方とも-測定可能である（前者の性質は定義により成り立つが、後者の性質がここでは重要である）ので、このことから次が示される。 $H\in {\mathcal {H}}$ $E(X\mid {\mathcal {H}})$ $X$ ${\mathcal {H}}$

\int _{H}{\big |}E(X\mid {\mathcal {H}})-X{\big |}\,dP=0

そして、これはほぼどこにでも当てはまります。 $E(X\mid {\mathcal {H}})=X$ $\square$

- 特に、部分σ -代数に対してはが成り立ちます。（これは以下のタワー特性とは異なることに注意してください。） ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}$ $E(E(X\mid {\mathcal {H}}_{1})\mid {\mathcal {H}}_{2})=E(X\mid {\mathcal {H}}_{1})$
- Zがランダム変数である場合、となります。最も単純な形では、となります。 $\operatorname {E} (f(Z)\mid Z)=f(Z)$ $\operatorname {E} (Z\mid Z)=Z$
既知の要因の抽出:
- が-測定可能である場合、。 $X$ ${\mathcal {H}}$ $E(XY\mid {\mathcal {H}})=X\,E(Y\mid {\mathcal {H}})$

証拠

ここで、すべての確率変数は一般性を失うことなく非負であると仮定する。一般的なケースはで扱うことができる。 $X=X^{+}-X^{-}$

を固定して置く。すると任意の $A\in {\mathcal {H}}$ $X=1_{A}$ $H\in {\mathcal {H}}$

\int _{H}E(1_{A}Y\mid {\mathcal {H}})\,dP=\int _{H}1_{A}Y\,dP=\int _{A\cap H}Y\,dP=\int _{A\cap H}E(Y\mid {\mathcal {H}})\,dP=\int _{H}1_{A}E(Y\mid {\mathcal {H}})\,dP

したがって、ほとんどどこにでも。 $E(1_{A}Y\mid {\mathcal {H}})=1_{A}E(Y\mid {\mathcal {H}})$

任意の単純関数は、指示関数の有限線型結合である。線型性により、上記の性質は単純関数にも成り立つ。すなわち、が単純関数であるならばとなる。 $X_{n}$ $E(X_{n}Y\mid {\mathcal {H}})=X_{n}\,E(Y\mid {\mathcal {H}})$

ここでを-可測とします。すると、に単調収束（ここでは）し、かつ各点ごとに収束する単純関数の列が存在します。したがって、に対して、この列はに単調収束し、かつ各点ごとに収束します。 $X$ ${\mathcal {H}}$ $\{X_{n}\}_{n\geq 1}$ $X_{n}\leq X_{n+1}$ $X$ $Y\geq 0$ $\{X_{n}Y\}_{n\geq 1}$ $XY$

また、なので、この数列は単調かつ点ごとに収束し、 $E(Y\mid {\mathcal {H}})\geq 0$ $\{X_{n}E(Y\mid {\mathcal {H}})\}_{n\geq 1}$ $X\,E(Y\mid {\mathcal {H}})$

単純な関数に対して証明された特殊なケース、条件付き期待値の定義、および単調収束定理の展開を組み合わせると、

\int _{H}X\,E(Y\mid {\mathcal {H}})\,dP=\int _{H}\lim _{n\to \infty }X_{n}\,E(Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}X_{n}E(Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}E(X_{n}Y\mid {\mathcal {H}})\,dP=\lim _{n\to \infty }\int _{H}X_{n}Y\,dP=\int _{H}\lim _{n\to \infty }X_{n}Y\,dP=\int _{H}XY\,dP=\int _{H}E(XY\mid {\mathcal {H}})\,dP

これはすべてに当てはまり、ほとんどどこにでも当てはまります。 $H\in {\mathcal {H}}$ $X\,E(Y\mid {\mathcal {H}})=E(XY\mid {\mathcal {H}})$ $\square$

- Zがランダム変数である場合、 . $\operatorname {E} (f(Z)Y\mid Z)=f(Z)\operatorname {E} (Y\mid Z)$
総期待値の法則：[ ^12] $E(E(X\mid {\mathcal {H}}))=E(X)$
タワープロパティ:
- 部分σ -代数の場合、が成り立ちます。 ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}$ $E(E(X\mid {\mathcal {H}}_{2})\mid {\mathcal {H}}_{1})=E(X\mid {\mathcal {H}}_{1})$
  - 特別なケースでは、総期待値の法則が回復されます。 ${\mathcal {H}}_{1}=\{\emptyset ,\Omega \}$ $E(E(X\mid {\mathcal {H}}_{2}))=E(X)$
  - 特別なケースとして、Zが -測定可能な確率変数である場合が挙げられます。その場合、したがってとなります。 ${\mathcal {H}}$ $\sigma (Z)\subset {\mathcal {H}}$ $E(E(X\mid {\mathcal {H}})\mid Z)=E(X\mid Z)$
  - Doob マルチンゲール特性: 上記を(-測定可能) とし、も使用すると、が得られます。 $Z=E(X\mid {\mathcal {H}})$ ${\mathcal {H}}$ $\operatorname {E} (Z\mid Z)=Z$ $E(X\mid E(X\mid {\mathcal {H}}))=E(X\mid {\mathcal {H}})$
- ランダム変数の場合、次の式が成り立ちます。 $X,Y$ $E(E(X\mid Y)\mid f(Y))=E(X\mid f(Y))$
- ランダム変数の場合、次の式が成り立ちます。 $X,Y,Z$ $E(E(X\mid Y,Z)\mid Y)=E(X\mid Y)$
線形性: に対して、およびが成り立ちます。 $E(X_{1}+X_{2}\mid {\mathcal {H}})=E(X_{1}\mid {\mathcal {H}})+E(X_{2}\mid {\mathcal {H}})$ $E(aX\mid {\mathcal {H}})=a\,E(X\mid {\mathcal {H}})$ $a\in \mathbb {R}$
ポジティブ：もしそうなら。 $X\geq 0$ $E(X\mid {\mathcal {H}})\geq 0$
単調性:ならば。 $X_{1}\leq X_{2}$ $E(X_{1}\mid {\mathcal {H}})\leq E(X_{2}\mid {\mathcal {H}})$
単調収束:ならば。 $0\leq X_{n}\uparrow X$ $E(X_{n}\mid {\mathcal {H}})\uparrow E(X\mid {\mathcal {H}})$
優勢収束: かつの場合、となります。 $X_{n}\to X$ $|X_{n}|\leq Y$ $Y\in L^{1}$ $E(X_{n}\mid {\mathcal {H}})\to E(X\mid {\mathcal {H}})$
ファトゥの補題: もしもならば. $\textstyle E(\inf _{n}X_{n}\mid {\mathcal {H}})>-\infty$ $\textstyle E(\liminf _{n\to \infty }X_{n}\mid {\mathcal {H}})\leq \liminf _{n\to \infty }E(X_{n}\mid {\mathcal {H}})$
ジェンセンの不等式: が凸関数である場合、。 $f\colon \mathbb {R} \rightarrow \mathbb {R}$ $f(E(X\mid {\mathcal {H}}))\leq E(f(X)\mid {\mathcal {H}})$
条件付き分散：条件付き期待値を用いて、分散を平均からの平均二乗偏差として定義することから類推して、条件付き分散を定義することができる。
- 意味： $\operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} {\bigl (}(X-\operatorname {E} (X\mid {\mathcal {H}}))^{2}\mid {\mathcal {H}}{\bigr )}$
- 分散の代数式： $\operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} (X^{2}\mid {\mathcal {H}})-{\bigl (}\operatorname {E} (X\mid {\mathcal {H}}){\bigr )}^{2}$
- 全分散の法則: 。 $\operatorname {Var} (X)=\operatorname {E} (\operatorname {Var} (X\mid {\mathcal {H}}))+\operatorname {Var} (\operatorname {E} (X\mid {\mathcal {H}}))$
マルチンゲール収束: 有限の期待値を持つランダム変数について、がサブσ代数の増加級数でありがサブσ代数減少級数でありである場合はが成り立ちます。 $X$ $E(X\mid {\mathcal {H}}_{n})\to E(X\mid {\mathcal {H}})$ ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset \dotsb$ $\textstyle {\mathcal {H}}=\sigma (\bigcup _{n=1}^{\infty }{\mathcal {H}}_{n})$ ${\mathcal {H}}_{1}\supset {\mathcal {H}}_{2}\supset \dotsb$ $\textstyle {\mathcal {H}}=\bigcap _{n=1}^{\infty }{\mathcal {H}}_{n}$
射影としての条件付き期待値：が平方積分可能な実数確率変数（有限の2次モーメントを持つ実数確率変数）のヒルベルト空間内にある場合、 $L^{2}$ $X,Y$
- -可測な関数に対してはが成り立ちます。つまり、条件付き期待値はから-可測な関数の線形部分空間への直交射影の L ² ( P )スカラー積の意味で成り立ちます。（これにより、ヒルベルト射影定理に基づいて条件付き期待値の定義と存在の証明が可能になります。） ${\mathcal {H}}$ $Y$ $E(Y(X-E(X\mid {\mathcal {H}})))=0$ $E(X\mid {\mathcal {H}})$ $X$ ${\mathcal {H}}$
- 写像は自己随伴である： $X\mapsto \operatorname {E} (X\mid {\mathcal {H}})$ $\operatorname {E} (X\operatorname {E} (Y\mid {\mathcal {H}}))=\operatorname {E} \left(\operatorname {E} (X\mid {\mathcal {H}})\operatorname {E} (Y\mid {\mathcal {H}})\right)=\operatorname {E} (\operatorname {E} (X\mid {\mathcal {H}})Y)$
条件付けはL ^p空間の収縮射影である。つまり、任意のp ≥ 1に対してである。 $L^{p}(\Omega ,{\mathcal {F}},P)\rightarrow L^{p}(\Omega ,{\mathcal {H}},P)$ $\operatorname {E} {\big (}|\operatorname {E} (X\mid {\mathcal {H}})|^{p}{\big )}\leq \operatorname {E} {\big (}|X|^{p}{\big )}$
ドゥーブの条件付き独立性の性質: ^[13]が与えられた場合に条件付き独立であれば、（同値、）となる。 $X,Y$ $Z$ $P(X\in B\mid Y,Z)=P(X\in B\mid Z)$ $E(1_{\{X\in B\}}\mid Y,Z)=E(1_{\{X\in B\}}\mid Z)$

参照

確率の法則

注記

^
コルモゴロフ、アンドレイ(1933)。Grundbegriffe der Wahrscheinlichkeitsrechnung (ドイツ語)。ベルリン：ユリウス・シュプリンガー。 p. 46.
- 翻訳：アンドレイ・コルモゴロフ（1956年）『確率論の基礎』（第2版）ニューヨーク：チェルシー、p.53、ISBN 0-8284-0023-7. 2018年9月14日時点のオリジナルよりアーカイブ。2009年3月14日閲覧。 {{cite book}}: ISBN / Date incompatibility (help)
^ Oxtoby, JC (1953). 「レビュー：測度論、P.R. Halmos著」(PDF) . Bull. Amer. Math. Soc . 59 (1): 89– 91. doi : 10.1090/s0002-9904-1953-09662-8 .
^ JL Doob (1953).確率過程. John Wiley & Sons . ISBN 0-471-52369-0。 {{cite book}}: ISBN / Date incompatibility (help)
^ オラフ・カレンバーグ著『現代確率論の基礎』第2版、シュプリンガー、ニューヨーク、2002年、ISBN 0-387-95313-2、573ページ。
^ 「確率 - 条件付き期待値の背後にある直感」Mathematics Stack Exchange。
^ ブロックウェル、ピーター・J. (1991). 『時系列：理論と方法』（第2版）. ニューヨーク: シュプリンガー・フェアラーク. ISBN 978-1-4419-0320-4。
^ ハスティー、トレバー（2009年8月26日）『統計学習の要素：データマイニング、推論、予測』（PDF）（第2版、訂正第7刷）。ニューヨーク。ISBN 978-0-387-84858-7。{{cite book}}: CS1 maint: location missing publisher (link)
^ ビリングスリー、パトリック(1995). 「第34章条件付き期待値」.確率と測度（第3版）. John Wiley & Sons. p. 445. ISBN 0-471-00710-2。
^ Klenke, Achim (2013年8月30日).確率論：総合講座（第2版）. ロンドン. ISBN 978-1-4471-5361-0。{{cite book}}: CS1 maint: location missing publisher (link)
^ Da Prato, Giuseppe; Zabczyk, Jerzy (2014).無限次元における確率方程式. Cambridge University Press. p. 26. doi :10.1017/CBO9781107295513. ISBN 978-1-107-05584-1。（可分バナッハ空間における定義）
^ ハイトーネン、トゥオーマス;ヤン・ファン・ニールフェン。ヴェラール、マーク。ヴァイス、ルッツ（2016）。バナッハ空間での分析、第 1 巻: マーチンゲールとリトルウッド-ペイリー理論。スプリンガー・チャム。土井：10.1007/978-3-319-48520-1。ISBN 978-3-319-48519-5。（一般のバナッハ空間における定義）
^ 「条件付き期待値」www.statlect.com . 2020年9月11日閲覧。
^ カレンバーグ、オラフ (2001)。現代確率の基礎(第 2 版)。米国ペンシルバニア州ヨーク：スプリンガー。 p. 110.ISBN 0-387-95313-2。

参考文献

ウィリアム・フェラー『確率論とその応用入門』第1巻、1950年、223ページ
ポール・A・マイヤー著『確率とポテンシャル』ブレイズデル出版、1966年、28ページ
グリメット、ジェフリー、スターザカー、デイヴィッド (2001).確率とランダム過程（第3版）. オックスフォード大学出版局. ISBN 0-19-857222-0。、67～69ページ

外部リンク

Ushakov, NG (2001) [1994]、「条件付き数学的期待値」、数学百科事典、EMS Press

[kol1933-1] コルモゴロフ、アンドレイ(1933)。Grundbegriffe der Wahrscheinlichkeitsrechnung (ドイツ語)。ベルリン：ユリウス・シュプリンガー。 p. 46.
翻訳：アンドレイ・コルモゴロフ（1956年）『確率論の基礎』（第2版）ニューヨーク：チェルシー、p.53、ISBN 0-8284-0023-7. 2018年9月14日時点のオリジナルよりアーカイブ。2009年3月14日閲覧。 {{cite book}}: ISBN / Date incompatibility (help)

[2] 翻訳：アンドレイ・コルモゴロフ（1956年）『確率論の基礎』（第2版）ニューヨーク：チェルシー、p.53、ISBN 0-8284-0023-7. 2018年9月14日時点のオリジナルよりアーカイブ。2009年3月14日閲覧。 {{cite book}}: ISBN / Date incompatibility (help)

[halmos1950-2] Oxtoby, JC (1953). 「レビュー：測度論、P.R. Halmos著」(PDF) . Bull. Amer. Math. Soc . 59 (1): 89– 91. doi : 10.1090/s0002-9904-1953-09662-8 .

[doob1953-3] JL Doob (1953).確率過程. John Wiley & Sons . ISBN 0-471-52369-0。 {{cite book}}: ISBN / Date incompatibility (help)

[4] オラフ・カレンバーグ著『現代確率論の基礎』第2版、シュプリンガー、ニューヨーク、2002年、ISBN 0-387-95313-2、573ページ。

[5] 「確率 - 条件付き期待値の背後にある直感」Mathematics Stack Exchange。

[6] ブロックウェル、ピーター・J. (1991). 『時系列：理論と方法』（第2版）. ニューヨーク: シュプリンガー・フェアラーク. ISBN 978-1-4419-0320-4。

[7] ハスティー、トレバー（2009年8月26日）『統計学習の要素：データマイニング、推論、予測』（PDF）（第2版、訂正第7刷）。ニューヨーク。ISBN 978-0-387-84858-7。{{cite book}}: CS1 maint: location missing publisher (link)

[billingsley1995-8] ビリングスリー、パトリック(1995). 「第34章条件付き期待値」.確率と測度（第3版）. John Wiley & Sons. p. 445. ISBN 0-471-00710-2。

[9] Klenke, Achim (2013年8月30日).確率論：総合講座（第2版）. ロンドン. ISBN 978-1-4471-5361-0。{{cite book}}: CS1 maint: location missing publisher (link)

[10] Da Prato, Giuseppe; Zabczyk, Jerzy (2014).無限次元における確率方程式. Cambridge University Press. p. 26. doi :10.1017/CBO9781107295513. ISBN 978-1-107-05584-1。（可分バナッハ空間における定義）

[11] ハイトーネン、トゥオーマス;ヤン・ファン・ニールフェン。ヴェラール、マーク。ヴァイス、ルッツ（2016）。バナッハ空間での分析、第 1 巻: マーチンゲールとリトルウッド-ペイリー理論。スプリンガー・チャム。土井：10.1007/978-3-319-48520-1。ISBN 978-3-319-48519-5。（一般のバナッハ空間における定義）

[12] 「条件付き期待値」www.statlect.com . 2020年9月11日閲覧。

[13] カレンバーグ、オラフ (2001)。現代確率の基礎(第 2 版)。米国ペンシルバニア州ヨーク：スプリンガー。 p. 110.ISBN 0-387-95313-2。