条件付け（確率）

信念は利用可能な情報に依存します。この考え方は、確率論において条件付けによって形式化されます。条件付き確率、条件付き期待値、条件付き確率分布は、離散確率、確率密度関数、測度論という3つのレベルで扱われます。条件が完全に指定されている場合、条件付けは非ランダムな結果をもたらします。そうでない場合、つまり条件がランダムなままである場合、条件付けの結果もランダムになります。

離散レベルでの条件付け

例：公平なコインを10回投げます。確率変数 Xは10回の投げで表が出た回数、Y は最初の3回の投げで表が出た回数です。YがXより先に出現するにもかかわらず、ある人がX を知っていてY を知らないという状況が発生する可能性があります。

条件付き確率

X = 1とすると、事象Y = 0の条件付き確率は

\mathbb {P} (Y=0|X=1)={\frac {\mathbb {P} (Y=0,X=1)}{\mathbb {P} (X=1)}}=0.7

より一般的には、

{\begin{aligned}\mathbb {P} (Y=0|X=x)&={\frac {\binom {7}{x}}{\binom {10}{x}}}={\frac {7!(10-x)!}{(7-x)!10!}}&&x=0,1,2,3,4,5,6,7.\\[4pt]\mathbb {P} (Y=0|X=x)&=0&&x=8,9,10.\end{aligned}}

条件付き確率を確率変数、つまり確率変数Xの関数として扱うこともできる。つまり、

\mathbb {P} (Y=0|X)={\begin{cases}{\binom {7}{X}}/{\binom {10}{X}}&X\leqslant 7,\\0&X>7.\end{cases}}

この確率変数の期待値は（無条件の）確率に等しい。

\mathbb {E} (\mathbb {P} (Y=0|X))=\sum _{x}\mathbb {P} (Y=0|X=x)\mathbb {P} (X=x)=\mathbb {P} (Y=0),

すなわち、

\sum _{x=0}^{7}{\frac {\binom {7}{x}}{\binom {10}{x}}}\cdot {\frac {1}{2^{10}}}{\binom {10}{x}}={\frac {1}{8}},

これは全確率の法則の一例である $\mathbb {E} (\mathbb {P} (A|X))=\mathbb {P} (A).$

したがって、X = 1に対応するランダム変数の値として扱うことができます。 $\mathbb {P} (Y=0|X=1)$ $\mathbb {P} (Y=0|X)$ 一方、は、Xの他の可能な値に関係なく、明確に定義されます。 $\mathbb {P} (Y=0|X=1)$

条件付き期待値

X = 1とすると、確率変数Yの条件付き期待値はより一般的には、 $\mathbb {E} (Y|X=1)={\tfrac {3}{10}}$

\mathbb {E} (Y|X=x)={\frac {3}{10}}x,\qquad x=0,\ldots ,10.

（この例では線形関数のように見えますが、一般的には非線形です。）条件付き期待値を確率変数、つまり確率変数Xの関数として扱うこともできます。つまり、

\mathbb {E} (Y|X)={\frac {3}{10}}X.

この確率変数の期待値はYの（無条件）期待値に等しい。

\mathbb {E} (\mathbb {E} (Y|X))=\sum _{x}\mathbb {E} (Y|X=x)\mathbb {P} (X=x)=\mathbb {E} (Y),

すなわち、

\sum _{x=0}^{10}{\frac {3}{10}}x\cdot {\frac {1}{2^{10}}}{\binom {10}{x}}={\frac {3}{2}},

あるいは単に

\mathbb {E} \left({\frac {3}{10}}X\right)={\frac {3}{10}}\mathbb {E} (X)={\frac {3}{10}}\cdot 5={\frac {3}{2}},

これは総期待の法則の一例である $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y).$

確率変数は、 Xが与えられたときにYを最もよく予測する変数である。つまり、 f ( X )の形式をとるすべての確率変数のクラスにおいて平均二乗誤差を最小化する。この確率変数のクラスは、 Xを例えば2Xに置き換えてもそのままである。したがって、これは次のことを意味するのではなく、特に、より一般的には、Xのすべての可能な値の集合と1対1の関係にあるすべての関数gについてである。Xの値は重要ではなく、重要なのは分割（αXと記す_）である。 $\mathbb {E} (Y|X)$ $\mathbb {E} (Y-f(X))^{2}$ $\mathbb {E} (Y|2X)=\mathbb {E} (Y|X).$ $\mathbb {E} (Y|2X)={\tfrac {3}{10}}\times 2X;$ $\mathbb {E} (Y|2X)={\tfrac {3}{20}}\times 2X={\tfrac {3}{10}}X.$ $\mathbb {E} (Y|2X=2)={\tfrac {3}{10}}.$ $\mathbb {E} (Y|g(X))=\mathbb {E} (Y|X)$

\Omega =\{X=x_{1}\}\uplus \{X=x_{2}\}\uplus \dots

標本空間Ω を互いに素な集合 { X = x _n } に分割する。（ここにXの取り得る値すべてがある。）Ω の任意の分割 α が与えられた場合、確率変数E ( Y | α )を定義できる。この場合も、E ( E ( Y | α)) = E ( Y ) となる。 $x_{1},x_{2},\ldots$

一方、イベントBの条件付けは、 Bが複数の部分の 1 つとして含まれる可能性があるパーティションに関係なく、明確に定義されます。 $\mathbb {P} (B)\neq 0,$

条件付き分布

X = xとすると、 Yの条件付き分布は

\mathbb {P} (Y=y|X=x)={\frac {{\binom {3}{y}}{\binom {7}{x-y}}}{\binom {10}{x}}}={\frac {{\binom {x}{y}}{\binom {10-x}{3-y}}}{\binom {10}{3}}}

0 ≤ y ≤ min ( 3, x )に対して、これは超幾何分布 H ( x ; 3, 7 )、またはそれと同値なH ( 3; x , 10- x ) である。対応する期待値 0.3 xは、以下の一般式から得られる。

n{\frac {R}{R+W}}

H ( n ; R , W )の場合、条件付き期待値E ( Y | X = x ) = 0.3 xに他なりません。

H ( X ; 3, 7 )をランダム分布（{0,1,2,3}上のすべての測度の4次元空間におけるランダムベクトル）として扱うと、その期待値をとるYの無条件分布、すなわち二項分布 Bin ( 3, 0.5 )が得られる。この事実は、

\sum _{x=0}^{10}\mathbb {P} (Y=y|X=x)\mathbb {P} (X=x)=\mathbb {P} (Y=y)={\frac {1}{2^{3}}}{\binom {3}{y}}

y = 0,1,2,3の場合、これは全確率の法則の一例です。

密度レベルの条件付け

例。球面上の一様分布に従って、球面上の点x ² + y ² + z ² = 1 がランダムに選択される。^[1]確率変数X、Y、Zはランダム点の座標である。球面の体積がゼロであるため、X、Y、Zの結合密度は存在しないが、 X _、_Yの結合密度f _X、Yは存在する。

f_{X,Y}(x,y)={\begin{cases}{\frac {1}{2\pi {\sqrt {1-x^{2}-y^{2}}}}}&{\text{if }}x^{2}+y^{2}<1,\\0&{\text{otherwise}}.\end{cases}}

（球と平面の間の角度が一定ではないため、密度は一定ではありません。） Xの密度は積分によって計算できます。

f_{X}(x)=\int _{-\infty }^{+\infty }f_{X,Y}(x,y)\,\mathrm {d} y=\int _{-{\sqrt {1-x^{2}}}}^{+{\sqrt {1-x^{2}}}}{\frac {\mathrm {d} y}{2\pi {\sqrt {1-x^{2}-y^{2}}}}}\,;

驚くべきことに、結果は(−1,1)のxに依存しない。

f_{X}(x)={\begin{cases}0.5&{\text{for }}-1<x<1,\\0&{\text{otherwise}},\end{cases}}

これは、Xが(-1,1)上に一様に分布していることを意味します。YとZについても同様です（実際、a ² + b ² + c ² = 1のときは常にaX + bY + cZについても同様に当てはまります）。

例：周辺分布関数を計算する別の方法が以下に示されている^[2]^[3]

$f_{X,Y,Z}(x,y,z)={\frac {3}{4\pi }}$

$f_{X}(x)=\int _{-{\sqrt {1-y^{2}-x^{2}}}}^{+{\sqrt {1-y^{2}-x^{2}}}}\int _{-{\sqrt {1-x^{2}}}}^{+{\sqrt {1-x^{2}}}}{\frac {3\mathrm {d} y\mathrm {d} z}{4\pi }}=3{\sqrt {1-x^{2}}}/4\,;$

条件付き確率

計算

X = 0.5とすると、事象Y ≤ 0.75の条件付き確率は条件付き密度の積分であり、

f_{Y|X=0.5}(y)={\frac {f_{X,Y}(0.5,y)}{f_{X}(0.5)}}={\begin{cases}{\frac {1}{\pi {\sqrt {0.75-y^{2}}}}}&{\text{for }}-{\sqrt {0.75}}<y<{\sqrt {0.75}},\\0&{\text{otherwise}}.\end{cases}}

\mathbb {P} (Y\leq 0.75|X=0.5)=\int _{-\infty }^{0.75}f_{Y|X=0.5}(y)\,\mathrm {d} y=\int _{-{\sqrt {0.75}}}^{0.75}{\frac {\mathrm {d} y}{\pi {\sqrt {0.75-y^{2}}}}}={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arcsin {\sqrt {0.75}}={\tfrac {5}{6}}.

より一般的には、

\mathbb {P} (Y\leq y|X=x)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-x^{2}}}}

任意のxとyに対して−1 < x < 1となる（そうでなければ分母f _X ( x ) はゼロになる）かつ（そうでなければ条件付き確率は0または1に退化する）。条件付き確率を確率変数、つまり確率変数Xの関数として扱うこともできる。つまり、 $\textstyle -{\sqrt {1-x^{2}}}<y<{\sqrt {1-x^{2}}}$

\mathbb {P} (Y\leq y|X)={\begin{cases}0&{\text{for }}X^{2}\geq 1-y^{2}{\text{ and }}y<0,\\{\frac {1}{2}}+{\frac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-X^{2}}}}&{\text{for }}X^{2}<1-y^{2},\\1&{\text{for }}X^{2}\geq 1-y^{2}{\text{ and }}y>0.\end{cases}}

この確率変数の期待値は（無条件の）確率に等しい。

\mathbb {E} (\mathbb {P} (Y\leq y|X))=\int _{-\infty }^{+\infty }\mathbb {P} (Y\leq y|X=x)f_{X}(x)\,\mathrm {d} x=\mathbb {P} (Y\leq y),

これは全確率の法則 E(P( A | X ))=P( A )の一例である。

解釈

条件付き確率P ( Y ≤ 0.75 | X = 0.5 )は、 P ( Y ≤ 0.75, X = 0.5 ) / P ( X = 0.5 )と解釈することはできません。後者は 0/0 となるためです。したがって、P ( Y ≤ 0.75 | X = 0.5 )は経験的頻度に基づいて解釈することはできません。なぜなら、 X = 0.5という正確な値は、無限回の独立試行において一度たりともランダムに出現する可能性がないからです。

条件付き確率は限界として解釈できる。

{\begin{aligned}\mathbb {P} (Y\leq 0.75|X=0.5)&=\lim _{\varepsilon \to 0+}\mathbb {P} (Y\leq 0.75|0.5-\varepsilon <X<0.5+\varepsilon )\\&=\lim _{\varepsilon \to 0+}{\frac {\mathbb {P} (Y\leq 0.75,0.5-\varepsilon <X<0.5+\varepsilon )}{\mathbb {P} (0.5-\varepsilon <X<0.5+\varepsilon )}}\\&=\lim _{\varepsilon \to 0+}{\frac {\int _{0.5-\varepsilon }^{0.5+\varepsilon }\mathrm {d} x\int _{-\infty }^{0.75}\mathrm {d} y\,f_{X,Y}(x,y)}{\int _{0.5-\varepsilon }^{0.5+\varepsilon }\mathrm {d} x\,f_{X}(x)}}.\end{aligned}}

条件付き期待値

{\begin{aligned}|Z|&=h(X,Y)={\sqrt {1-X^{2}-Y^{2}}};\\\mathrm {E} (|Z||X=0.5)&=\int _{-\infty }^{+\infty }h(0.5,y)f_{Y|X=0.5}(y)\,\mathrm {d} y=\\&=\int _{-{\sqrt {0.75}}}^{+{\sqrt {0.75}}}{\sqrt {0.75-y^{2}}}\cdot {\frac {\mathrm {d} y}{\pi {\sqrt {0.75-y^{2}}}}}\\&={\frac {2}{\pi }}{\sqrt {0.75}}.\end{aligned}}

より一般的には、

\mathbb {E} (|Z||X=x)={\frac {2}{\pi }}{\sqrt {1-x^{2}}}

−1 < x < 1 である。条件付き期待値を確率変数、つまり確率変数Xの関数として扱うこともできる。つまり、

\mathbb {E} (|Z||X)={\frac {2}{\pi }}{\sqrt {1-X^{2}}}.

この確率変数の期待値は、| Z |の（無条件）期待値に等しい。

\mathbb {E} (\mathbb {E} (|Z||X))=\int _{-\infty }^{+\infty }\mathbb {E} (|Z||X=x)f_{X}(x)\,\mathrm {d} x=\mathbb {E} (|Z|),

すなわち、

\int _{-1}^{+1}{\frac {2}{\pi }}{\sqrt {1-x^{2}}}\cdot {\frac {\mathrm {d} x}{2}}={\tfrac {1}{2}},

これは総期待値の法則 E(E( Y | X ))=E( Y )の一例です。

確率変数E(| Z | | X )は、 Xが与えられた場合の| Z |の最良の予測子です。つまり、f ( X )の形式をとるすべての確率変数のクラスにおいて、平均二乗誤差E(| Z | - f ( X )) ^2を最小化します。離散ケースと同様に、 (- 1,1)上で1対1となるすべての測定可能な関数gに対して、 E( | Z | | g ( X )) = E(| Z | | X )が成り立ちます。

条件付き分布

X = xが与えられたとき、 Yの条件付き分布は密度f _{Y | X = x} (y) で与えられ、（再スケールされた）逆正弦分布である。その累積分布関数は

F_{Y|X=x}(y)=\mathbb {P} (Y\leq y|X=x)={\frac {1}{2}}+{\frac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-x^{2}}}}

となる^{。対応する}h ( ^x , Y )の期待値は、条件付き期待値E ( h ( X , Y ) | X = x ) に他ならない。これらの条件付き分布を、すべての x について（ X の分布に従って）とったものが、 Yの無条件分布である。この事実は、以下の式に等しい。

{\begin{aligned}&\int _{-\infty }^{+\infty }f_{Y|X=x}(y)f_{X}(x)\,\mathrm {d} x=f_{Y}(y),\\&\int _{-\infty }^{+\infty }F_{Y|X=x}(y)f_{X}(x)\,\mathrm {d} x=F_{Y}(y),\end{aligned}}

後者は、上で述べた全確率の法則の例です。

条件付けではないもの

離散レベルでは、条件の確率がゼロでない（ゼロで割ることができない）場合にのみ条件付けが可能です。密度レベルでは、P ( X = x ) = 0であっても、 X = xの条件付けが可能です。この成功は、条件付けが常に可能であるという幻想を生み出すかもしれません。残念ながら、以下に示すいくつかの理由により、それはそうではありません。

幾何学的直感：注意

上記の結果P ( Y ≤ 0.75 | X = 0.5 ) = 5/6 は、次の意味で幾何学的に明らかです。条件x = 0.5を満たす球面x ² + y ² + z ^{2 = 1 上の点 (}x , y , z ) は、平面x = 0.5 上の半径y ² + z ² = 0.75 の円です。不等式y ≤ 0.75 は円弧上でも成り立ちます。円弧の長さは円の長さの 5/6 であるため、条件付き確率は 5/6 となります。 ${\sqrt {0.75}}$

この成功した幾何学的説明により、次の質問が些細なことであるという錯覚が生じる可能性があります。

与えられた球面上の点をランダムに（一様に）選びます。その点が与えられた平面上にあるとすると、その条件付き分布はどうなるでしょうか？

条件付き分布は与えられた円（与えられた球面と与えられた平面の交点）上で一様分布でなければならないことは明らかであるように思えるかもしれない。確かにそうなる場合もあるが、一般的にはそうではない。特に、Zは(-1,+1)上で一様分布し、比Y / Xに依存しないため、P ( Z ≤ 0.5 | Y / X ) = 0.75となる。一方、不等式z ≤ 0.5は円弧x ² + y ² + z ² = 1, y = cx（任意のcに対して）上で成立する。この弧の長さは円の長さの2/3である。しかし、条件付き確率は2/3ではなく3/4である。これは古典的なボレルのパラドックスの現れである。^[4]^[5]

対称性への訴えは、不変性の議論として形式化されなければ誤解を招く可能性があります。

— ポラード^[6]

もう一つの例を挙げましょう。三次元空間のランダム回転とは、ランダムな軸を中心としたランダムな角度の回転です。幾何学的な直感によれば、角度は軸とは独立しており、均一に分布していると考えられます。しかし、後者は誤りです。角度が小さい値になる確率は低いからです。

制限手順

確率がゼロの事象Bが与えられた場合、この式は役に立ちません。しかし、B _n ↓ B（つまり、かつ）となるような、確率がゼロでない事象の適切な列B _nを求めることは可能です。一例を上に示します。他に、ブラウン橋とブラウン逸脱という二つの例があります。 $\textstyle \mathbb {P} (A|B)=\mathbb {P} (A\cap B)/\mathbb {P} (B)$ $\textstyle \mathbb {P} (A|B)=\lim _{n\to \infty }\mathbb {P} (A\cap B_{n})/\mathbb {P} (B_{n})$ $\textstyle B_{1}\supset B_{2}\supset \dots$ $\textstyle B_{1}\cap B_{2}\cap \dots =B$

後者の2つの例では、単一の事象（条件）のみが与えられているため、全確率の法則は無関係です。対照的に、上の例では、事象X = 0.5が事象X = x （ xは(-1,1)を超える）の族に含まれており、これらの事象は確率空間の分割であるため、全確率の法則が適用されます。

パラドックス（ボレルのパラドックスなど）を回避するためには、以下の重要な区別を考慮する必要がある。ある事象の確率がゼロでない場合、その事象に関する条件付けは（他の事象とは無関係に）明確に定義される。これは前述の通りである。一方、ある事象の確率がゼロの場合、何らかの追加入力が与えられない限り、その事象に関する条件付けは不明確となる。この追加入力の選択を誤ると、誤った条件付き確率（期待値、分布）が生じる。この意味で、「確率が0である孤立した仮説に関する条件付き確率の概念は容認できない」（コルモゴロフ^[6]）。

追加の入力は、(a)対称性（不変群）、(b) B _n ↓ B , P( B _n ) > 0となる事象列B _n 、 (c)与えられた事象を含む分割のいずれかである。測度論的条件付け（下記）は、ケース(c)を調査し、(b)一般との関係、および該当する場合には(a)との関係を明らかにする。

確率がゼロの事象の中には、条件付けの及ばないものもあります。例えば、X _{n を}(0,1) 上に一様分布する独立確率変数とし、事象B を「n → ∞のときX _n → 0となる」とします。P ( X _n < 0.5 | B )はどうでしょうか？ 1 に近づくでしょうか、それとも近づかないでしょうか？別の例として、X を(0,1) 上に一様分布する確率変数とし、事象Bを「 Xは有理数である」とします。P ( X = 1/ n | B ) はどうでしょうか？唯一の答えは、繰り返しになりますが、

確率が 0 である孤立した仮説に関する条件付き確率の概念は認められません。

— コルモゴロフ^[6]

測度論のレベルでの条件付け

例: Y を(0,1) に一様分布する確率変数とし、X = f ( Y ) とする。ここでfは与えられた関数である。以下では、 f = f ₁とf = f _{2 の}2つのケースを扱う。ここでf ₁は連続区分線形関数である。

f_{1}(y)={\begin{cases}3y&{\text{for }}0\leq y\leq 1/3,\\1.5(1-y)&{\text{for }}1/3\leq y\leq 2/3,\\0.5&{\text{for }}2/3\leq y\leq 1,\end{cases}}

f ₂はワイエルシュトラス関数です。

幾何学的直感：注意

X = 0.75の場合、 Yの値は 0.25 と 0.5 の 2 通りになります。ある点が別の点と合同であるという事実から、どちらの値も条件付き確率 0.5 であるように見えるかもしれません。しかし、これは錯覚です。以下を参照してください。

条件付き確率

条件付き確率P ( Y ≤ 1/3 | X )は、指標の最良の予測子として定義される。

I={\begin{cases}1&{\text{if }}Y\leq 1/3,\\0&{\text{otherwise}},\end{cases}}

Xが与えられたとき、つまり、g ( X )の形をとるすべての確率変数のクラスにおける平均二乗誤差E( I - g ( X )) ^2を最小化する。

f = f ₁の場合、対応する関数g = g ₁を明示的に計算することができる。^{[詳細 1]}

g_{1}(x)={\begin{cases}1&{\text{for }}0<x<0.5,\\0&{\text{for }}x=0.5,\\1/3&{\text{for }}0.5<x<1.\end{cases}}

あるいは、制限手順を使用することもできる。

g_{1}(x)=\lim _{\varepsilon \to 0+}\mathbb {P} (Y\leq 1/3|x-\varepsilon \leq X\leq x+\varepsilon )\,,

同じ結果が得られます。

したがって、P ( Y ≤ 1/3 | X ) = g ₁ ( X ) となる。この確率変数の期待値は、（無条件）確率E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 )に等しい。つまり、

1\cdot \mathbb {P} (X<0.5)+0\cdot \mathbb {P} (X=0.5)+{\frac {1}{3}}\cdot \mathbb {P} (X>0.5)=1\cdot {\frac {1}{6}}+0\cdot {\frac {1}{3}}+{\frac {1}{3}}\cdot \left({\frac {1}{6}}+{\frac {1}{3}}\right)={\frac {1}{3}},

これは全確率の法則 E(P( A | X ))=P( A )の一例である。

f = f ₂の場合、対応する関数g = g ₂はおそらく明示的に計算できないでしょう。しかし、この関数は存在し、数値的に計算することができます。実際、すべての平方積分可能確率変数の空間L _{2 (Ω) は}ヒルベルト空間であり、指示子Iはこの空間のベクトルであり、形式g ( X ) の確率変数は（閉線形）部分空間です。このベクトルからこの部分空間への直交射影は明確に定義されています。これは、無限次元ヒルベルト空間の有限次元近似を用いて数値的に計算することができます。

もう一度言うと、確率変数P ( Y ≤ 1/3 | X ) = g ₂ ( X )の期待値は、（無条件）確率E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 )に等しい。つまり、

\int _{0}^{1}g_{2}(f_{2}(y))\,\mathrm {d} y={\tfrac {1}{3}}.

しかし、ヒルベルト空間アプローチでは、g _{2 を}個々の関数ではなく、関数の同値類として扱う。g 2_の測定可能性は保証されるが、連続性（さらにはリーマン積分可能性）は保証されない。値g ₂ (0.5) は、点 0.5 がXの分布のアトムであるため、一意に決定される。他の値xはアトムではないため、対応する値g ₂ ( x ) は一意に決定されない。繰り返すが、「確率が0である孤立した仮説に関する条件付き確率の概念は認められない」（コルモゴロフ^[6]）。

あるいは、同じ関数g（g ₁またはg _{2 ）}をラドン・ニコディム微分として定義することもできる。

g={\frac {\mathrm {d} \nu }{\mathrm {d} \mu }},

ここで、測度μ、νは次のように定義される。

{\begin{aligned}\mu (B)&=\mathbb {P} (X\in B),\\\nu (B)&=\mathbb {P} (X\in B,\,Y\leq {\tfrac {1}{3}})\end{aligned}}

すべてのボレル集合に対して、つまり、μはXの（無条件）分布であり、νはその条件付き分布の3分の1である。 $B\subset \mathbb {R} .$

\nu (B)=\mathbb {P} (X\in B|Y\leq {\tfrac {1}{3}})\mathbb {P} (Y\leq {\tfrac {1}{3}})={\tfrac {1}{3}}\mathbb {P} (X\in B|Y\leq {\tfrac {1}{3}}).

どちらのアプローチ（ヒルベルト空間経由およびラドン・ニコディム微分経由）も、g を関数の同値類として扱います。つまり、g ( X ) = g′ ( X ) がほぼ確実に成立する場合、2 つの関数gとg′は同値とみなされます。したがって、条件付き確率P ( Y ≤ 1/3 | X )は確率変数の同値類として扱われます。通常どおり、2 つの確率変数は、ほぼ確実に等しい場合、同値とみなされます。

条件付き期待値

条件付き期待値は、 Xが与えられた場合のYの最良の予測値として定義できます。つまり、h ( X )の形式をとるすべての確率変数のクラスにおける平均二乗誤差を最小化するものです。 $\mathbb {E} (Y|X)$ $\mathbb {E} (Y-h(X))^{2}$

f = f ₁の場合、対応する関数h = h ₁を明示的に計算することができる。^{[詳細 2]}

h_{1}(x)={\begin{cases}{\frac {x}{3}}&0<x<{\frac {1}{2}}\\[4pt]{\frac {5}{6}}&x={\frac {1}{2}}\\[4pt]{\frac {1}{3}}(2-x)&{\frac {1}{2}}<x<1\end{cases}}

あるいは、制限手順を使用することもできる。

h_{1}(x)=\lim _{\varepsilon \to 0+}\mathbb {E} (Y|x-\varepsilon \leqslant X\leqslant x+\varepsilon ),

同じ結果が得られます。

したがって、この確率変数の期待値は（無条件の）期待値に等しい。つまり、 $\mathbb {E} (Y|X)=h_{1}(X).$ $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y),$

\int _{0}^{1}h_{1}(f_{1}(y))\,\mathrm {d} y=\int _{0}^{\frac {1}{6}}{\frac {3y}{3}}\,\mathrm {d} y+\int _{\frac {1}{6}}^{\frac {1}{3}}{\frac {2-3y}{3}}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}{\frac {2-{\frac {3}{2}}(1-y)}{3}}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}{\frac {5}{6}}\,\mathrm {d} y={\frac {1}{2}},

これは総期待の法則の一例である $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y).$

f = f ₂の場合、対応する関数h = h _{2 は}おそらく明示的に計算できないでしょう。しかし、これは存在し、上記のg ₂と同様に、ヒルベルト空間への直交射影として数値的に計算できます。射影によってスカラー積が部分空間に属する定数 1 によって変化することはないため、全期待値法則が成立します。

あるいは、同じ関数h（h ₁またはh _{2 ）}をラドン・ニコディム微分として定義することもできる。

h={\frac {\mathrm {d} \nu }{\mathrm {d} \mu }},

ここで、測度μ、νは次のように定義される。

{\begin{aligned}\mu (B)&=\mathbb {P} (X\in B)\\\nu (B)&=\mathbb {E} (Y,X\in B)\end{aligned}}

全てのボレル集合に対して、これは制限された期待値であり、条件付き期待値と混同しないように注意する。 $B\subset \mathbb {R} .$ $\mathbb {E} (Y;A)$ $\mathbb {E} (Y|A)=\mathbb {E} (Y;A)/\mathbb {P} (A).$

条件付き分布

f = f ₁の場合、条件付き累積分布関数はg ₁と同様に明示的に計算できる。極限手順は以下の通りである。

F_{Y|X={\frac {3}{4}}}(y)=\mathbb {P} \left(Y\leqslant y\left|X={\tfrac {3}{4}}\right.\right)=\lim _{\varepsilon \to 0^{+}}\mathbb {P} \left(Y\leqslant y\left|{\tfrac {3}{4}}-\varepsilon \leqslant X\leqslant {\tfrac {3}{4}}+\varepsilon \right.\right)={\begin{cases}0&-\infty <y<{\tfrac {1}{4}}\\[4pt]{\tfrac {1}{6}}&y={\tfrac {1}{4}}\\[4pt]{\tfrac {1}{3}}&{\tfrac {1}{4}}<y<{\tfrac {1}{2}}\\[4pt]{\tfrac {2}{3}}&y={\tfrac {1}{2}}\\[4pt]1&{\tfrac {1}{2}}<y<\infty \end{cases}}

累積分布関数は右連続でなければならないため、これは正しくありません。

この逆説的な結果は、測度論によって次のように説明される。与えられたyに対して、対応する関数は（ヒルベルト空間またはラドン・ニコディム微分を介して）（ xの）同値類として明確に定義される。与えられたxに対するyの関数として扱う場合、何らかの追加入力が与えられない限り、それは明確に定義されない。つまり、（xの）関数は、あらゆる（少なくともほぼあらゆる）同値類の中から選択されなければならない。誤った選択は、誤った条件付き累積分布関数につながる。 $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$

正しい選択は次のようにして行うことができる。まず、有理数yのみについて考える。（他の稠密可算集合も同様に使用できる。）したがって、可算同値類のみを使用する。これらのクラス内の関数の選択はすべて互いに同値であり、有理数yに対応する関数は（ほぼすべてのxに対して）明確に定義される。次に、関数は右連続性によって有理数から実数へ拡張される。 $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$

一般に、条件付き分布はほぼすべてのxに対して（ Xの分布に従って）定義されますが、結果がxに関して連続的になる場合もあります。その場合は、個々の値が許容されます。検討した例ではこれが当てはまり、 x = 0.75の場合の正しい結果は、

F_{Y|X={\frac {3}{4}}}(y)=\mathbb {P} \left(Y\leqslant y\left|X={\tfrac {3}{4}}\right.\right)={\begin{cases}0&-\infty <y<{\tfrac {1}{4}}\\[4pt]{\tfrac {1}{3}}&{\tfrac {1}{4}}\leqslant y<{\tfrac {1}{2}}\\[4pt]1&{\tfrac {1}{2}}\leqslant y<\infty \end{cases}}

X = 0.75の場合のYの条件付き分布は、確率がそれぞれ 1/3 と 2/3 の 0.25 と 0.5 の 2 つの原子で構成されていることがわかります。

同様に、条件付き分布は(0, 0.5) または (0.5, 1) 内のすべてのxに対して計算できます。

x = 0.5という値はXの分布のアトムであるため、対応する条件付き分布は明確に定義され、初等的な方法で計算できる（分母はゼロにならない）。X = 0.5 を与えられたときの Y の条件付き分布は( 2/3 , 1) 上で一様である。測度論からも同じ結果が導かれる。

すべての条件付き分布の混合は、Yの (無条件) 分布です。

条件付き期待値とは、条件付き分布に関する期待値に他なりません。 $\mathbb {E} (Y|X=x)$

f = f ₂の場合、対応するはおそらく明示的に計算できないでしょう。与えられたyに対して、それは（ヒルベルト空間またはラドン・ニコディム微分を介して）（ xの）関数の同値類として明確に定義されます。これらの同値類内での関数の正しい選択は上記のように行うことができ、正しい条件付き累積分布関数、つまり条件付き分布が得られます。一般に、条件付き分布は原子分布または絶対連続である必要はなく（両方のタイプの混合でもありません）、おそらく、検討されている例では、それらは特異分布です（カントール分布のように）。 $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$

もう一度言いますが、すべての条件付き分布の混合は (無条件) 分布であり、条件付き期待値は条件付き分布に関する期待値です。

技術的な詳細

^ 証明:
${\begin{aligned}\mathbb {E} (I-g(X))^{2}&=\int _{0}^{1/3}(1-g(3y))^{2}\,\mathrm {d} y+\int _{1/3}^{2/3}g^{2}(1.5(1-y))\,\mathrm {d} y+\int _{2/3}^{1}g^{2}(0.5)\,\mathrm {d} y\\&=\int _{0}^{1}(1-g(x))^{2}{\frac {\mathrm {d} x}{3}}+\int _{0.5}^{1}g^{2}(x){\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}g^{2}(0.5)\\&={\frac {1}{3}}\int _{0}^{0.5}(1-g(x))^{2}\,\mathrm {d} x+{\frac {1}{3}}g^{2}(0.5)+{\frac {1}{3}}\int _{0.5}^{1}((1-g(x))^{2}+2g^{2}(x))\,\mathrm {d} x\,;\end{aligned}}$
(1− a ) ² + 2 a ²はa = 1/3で最小となることに注意する必要がある。
^ 証明:
${\begin{aligned}\mathbb {E} (Y-h_{1}(X))^{2}&=\int _{0}^{1}\left(y-h_{1}(f_{1}(x))\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{\frac {1}{3}}(y-h_{1}(3y))^{2}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}\left(y-h_{1}(1.5(1-y))\right)^{2}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}\left(y-h_{1}({\tfrac {1}{2}})\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{1}\left({\frac {x}{3}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{3}}+\int _{\frac {1}{2}}^{1}\left(1-{\frac {x}{1.5}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\frac {5}{9}}h_{1}({\tfrac {1}{2}})+{\frac {19}{81}}\\&={\frac {1}{3}}\int _{0}^{\frac {1}{2}}\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}\,\mathrm {d} x+{\tfrac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\tfrac {5}{9}}h_{1}({\tfrac {1}{2}})+{\tfrac {19}{81}}+{\tfrac {1}{3}}\int _{\frac {1}{2}}^{1}\left(\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}+2\left(h_{1}(x)-1+{\frac {2x}{3}}\right)^{2}\right)\,\mathrm {d} x;\end{aligned}}$
注目すべきは
$\left(a-{\frac {x}{3}}\right)^{2}+2\left(a-1+{\frac {2x}{3}}\right)^{2}$
は最小であり、は最小である $a={\tfrac {2-x}{3}},$ ${\tfrac {1}{3}}a^{2}-{\tfrac {5}{9}}a$ $a={\tfrac {5}{6}}.$

参照

注記

^ “Mathematica/Uniform Spherical Distribution - Wikibooks, open books for an open world”. en.wikibooks.org . 2018年10月27日閲覧。
^ Buchanan, K.; Huff, GH (2011年7月). 「ユークリッド空間における幾何学的に束縛されたランダムアレイの比較」. 2011 IEEE International Symposium on Antennas and Propagation (APSURSI) . pp. 2008– 2011. doi :10.1109/APS.2011.5996900. ISBN 978-1-4244-9563-4. S2CID 10446533。
^ Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (2017年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーション向け送信ビームフォーミング」. 2017 IEEE Radar Conference (RadarConf) . pp. 0112– 0117. doi :10.1109/RADAR.2017.7944181. ISBN 978-1-4673-8823-8. S2CID 38429370。
^ Pollard 2002、セクション5.5、例17、122ページ。
^ Durrett 1996、セクション4.1(a)、例1.6、224ページ。
^ abcd Pollard 2002、セクション5.5、122ページ。

参考文献

ダレット、リチャード（1996）「確率：理論と例（第2版）」
ポラード、デイヴィッド（2002）、理論的確率を測定するためのユーザーガイド、ケンブリッジ大学出版局
ドラハイム、ダーク（2017）一般化ジェフリー条件付け（部分条件付けの頻度主義的意味論）、シュプリンガー

[7] 証明:
${\begin{aligned}\mathbb {E} (I-g(X))^{2}&=\int _{0}^{1/3}(1-g(3y))^{2}\,\mathrm {d} y+\int _{1/3}^{2/3}g^{2}(1.5(1-y))\,\mathrm {d} y+\int _{2/3}^{1}g^{2}(0.5)\,\mathrm {d} y\\&=\int _{0}^{1}(1-g(x))^{2}{\frac {\mathrm {d} x}{3}}+\int _{0.5}^{1}g^{2}(x){\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}g^{2}(0.5)\\&={\frac {1}{3}}\int _{0}^{0.5}(1-g(x))^{2}\,\mathrm {d} x+{\frac {1}{3}}g^{2}(0.5)+{\frac {1}{3}}\int _{0.5}^{1}((1-g(x))^{2}+2g^{2}(x))\,\mathrm {d} x\,;\end{aligned}}$
(1− a ) ² + 2 a ²はa = 1/3で最小となることに注意する必要がある。

[8] 証明:
${\begin{aligned}\mathbb {E} (Y-h_{1}(X))^{2}&=\int _{0}^{1}\left(y-h_{1}(f_{1}(x))\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{\frac {1}{3}}(y-h_{1}(3y))^{2}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}\left(y-h_{1}(1.5(1-y))\right)^{2}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}\left(y-h_{1}({\tfrac {1}{2}})\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{1}\left({\frac {x}{3}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{3}}+\int _{\frac {1}{2}}^{1}\left(1-{\frac {x}{1.5}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\frac {5}{9}}h_{1}({\tfrac {1}{2}})+{\frac {19}{81}}\\&={\frac {1}{3}}\int _{0}^{\frac {1}{2}}\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}\,\mathrm {d} x+{\tfrac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\tfrac {5}{9}}h_{1}({\tfrac {1}{2}})+{\tfrac {19}{81}}+{\tfrac {1}{3}}\int _{\frac {1}{2}}^{1}\left(\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}+2\left(h_{1}(x)-1+{\frac {2x}{3}}\right)^{2}\right)\,\mathrm {d} x;\end{aligned}}$
注目すべきは
$\left(a-{\frac {x}{3}}\right)^{2}+2\left(a-1+{\frac {2x}{3}}\right)^{2}$
は最小であり、は最小である $a={\tfrac {2-x}{3}},$ ${\tfrac {1}{3}}a^{2}-{\tfrac {5}{9}}a$ $a={\tfrac {5}{6}}.$

[1] “Mathematica/Uniform Spherical Distribution - Wikibooks, open books for an open world”. en.wikibooks.org . 2018年10月27日閲覧。

[2] Buchanan, K.; Huff, GH (2011年7月). 「ユークリッド空間における幾何学的に束縛されたランダムアレイの比較」. 2011 IEEE International Symposium on Antennas and Propagation (APSURSI) . pp. 2008– 2011. doi :10.1109/APS.2011.5996900. ISBN 978-1-4244-9563-4. S2CID 10446533。

[3] Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (2017年5月). 「円形テーパーランダムアレイを用いたレーダーアプリケーション向け送信ビームフォーミング」. 2017 IEEE Radar Conference (RadarConf) . pp. 0112– 0117. doi :10.1109/RADAR.2017.7944181. ISBN 978-1-4673-8823-8. S2CID 38429370。

[FOOTNOTEPollard2002Sect._5.5,_Example_17_on_page_122-4] Pollard 2002、セクション5.5、例17、122ページ。

[FOOTNOTEDurrett1996Sect._4.1(a),_Example_1.6_on_page_224-5] Durrett 1996、セクション4.1(a)、例1.6、224ページ。

[FOOTNOTEPollard2002Sect._5.5,_page_122-6] Pollard 2002、セクション5.5、122ページ。